文档

ack-lingjun-aiast组件说明和变更记录

更新时间:

灵骏AI助手(ack-lingjun-aiast)是一套全自动的故障快速恢复系统。该系统能够实时监测并分析系统的运行状态,快速检测故障并采取恢复措施,例如硬件故障、网络故障、软件错误等,从而降低您的集群运维成本,提高系统可靠性和稳定性。

组件介绍

安装灵骏AI助手开启PAI的作业监控和恢复功能后,当发生故障或异常时,灵骏AI助手的告警系统可以自动和PAI进行交互,并上报故障信息,并根据故障触发阶段和并行策略选择规避故障的方法,自动隔离故障节点,并通过checkpoint快速恢复任务。灵骏AI助手提供以下功能:

  • 异常采集和上报:通过灵骏AI助手的告警系统自动和PAI进行交互。

  • 故障隔离:自动隔离故障节点。

  • 异常处理:通过告警触发PAI创建checkpoint并快速恢复任务。

使用说明

关于如何使用灵骏AI助手,请参见基于ack-lingjun-aiast组件实现集群自动化运维

变更记录

2024年06月

版本号

变更时间

变更内容

1.0.2

2024年06月30日

  • 新增底层服务器硬件故障维修自愈链路,故障码为EfloNodeFaultNeedReboot。

  • 支持通过Node Event上报灵骏AI助手的故障处理记录。

  • 修复由于Kubernetes Server更新冲突导致灵骏AI助手去除aiph-unschedulable污点操作的失效问题。

2024年01月

版本号

变更时间

变更内容

1.0.1

2024年01月15日

  • 支持灵骏节点的自愈链路

    1. 检测到节点故障时,灵骏AI助手会首先cordon节点,并为节点新增aiph-unschedulable污点。

    2. 与AIMaster联动,主动通知业务Pod进行迁移。当故障节点上不存在任何业务Pod时,会认为迁移完成。

    3. 通过灵骏管控的OpenAPI进行自愈操作。

    4. 自愈操作完成后,灵骏AI助手会对节点进行uncordon操作,并去除aiph-unschedulable污点。

  • 支持重启、维修两类自愈操作

    • 支持AIMaster检出的故障重启自愈链路,故障码包括ECCError、NvlinkError。

    • 支持底层服务器硬件故障维修自愈链路,故障码EfloHardwareError。

  • 支持在白屏页面上自定义部分配置内容,包括集群名称、流控策略、超时时长、自定义通知Webhook、重启类型自愈链路开关以及维修类型自愈链路开关。