灵骏AI助手(ack-lingjun-aiast)是一套全自动的故障快速恢复系统。该系统能够实时监测并分析系统的运行状态,快速检测故障并采取恢复措施,例如硬件故障、网络故障、软件错误等,从而降低您的集群运维成本,提高系统可靠性和稳定性。
组件介绍
安装灵骏AI助手开启PAI的作业监控和恢复功能后,当发生故障或异常时,灵骏AI助手的告警系统可以自动和PAI进行交互,并上报故障信息,并根据故障触发阶段和并行策略选择规避故障的方法,自动隔离故障节点,并通过checkpoint快速恢复任务。灵骏AI助手提供以下功能:
异常采集和上报:通过灵骏AI助手的告警系统自动和PAI进行交互。
故障隔离:自动隔离故障节点。
异常处理:通过告警触发PAI创建checkpoint并快速恢复任务。
使用说明
关于如何使用灵骏AI助手,请参见基于ack-lingjun-aiast组件实现集群自动化运维。
变更记录
2024年06月
版本号 | 变更时间 | 变更内容 |
1.0.2 | 2024年06月30日 |
|
2024年01月
版本号 | 变更时间 | 变更内容 |
1.0.1 | 2024年01月15日 |
|