PAI AIMaster+灵骏AI助手是一套全自动的故障快速恢复系统。该系统能够实时监测并分析系统的运行状态,快速检测故障并采取恢复措施,例如硬件故障、网络故障、软件错误等,从而降低运维成本,提高系统可靠性和稳定性。
组件介绍
安装灵骏AI助手开启PAI的作业监控和恢复功能后,当发生故障或异常时,灵骏AI助手的告警系统可以自动和PAI进行交互,并上报故障信息,并根据故障触发阶段和并行策略选择规避故障的方法,自动隔离故障节点,并通过checkpoint快速恢复任务。灵骏AI助手提供以下功能:
- 异常采集和上报:通过灵骏AI助手的告警系统自动和PAI进行交互。 
- 故障隔离:自动隔离故障节点。 
- 异常处理:通过告警触发PAI创建checkpoint并快速恢复任务。 
灵骏AI助手可通过ACK灵骏的组件管理安装,安装后需要RRSA授权。
安装ack-lingjun-aiast组件
具体操作,请参见管理组件。
RRSA授权流程
步骤一:启用RRSA功能
具体操作,请参见通过RRSA配置ServiceAccount的RAM权限实现Pod权限隔离。
步骤二:使用RRSA为灵骏AI助手进行授权
- 安装ack-pod-identity-webhook组件,用于实现身份认证。具体操作,请参见ack-pod-identity-webhook。 
- 创建RAM角色,角色名称为 - aiph-ack-rrsa-role。具体操作,请参见创建OIDC身份提供商的RAM角色。- 配置项 - 描述 - 角色名称 - 设置为 - aiph-ack-rrsa-role。- 备注 - 选填有关该角色的备注信息。 - 身份提供商类型 - 选择OIDC。 - 选择身份提供商 - 格式为ack-rrsa-<cluster_id>。其中 - <cluster_id>为您的集群ID。- 限制条件 - oidc:iss:保持默认。 
- oidc:aud:选择 - sts.aliyuncs.com。
- oidc:sub:条件判定方式选择 - StringEquals,值为- system:serviceaccount:aiph-ops:aiph-manager。
 
- 为步骤2创建的角色授予AliyunCSReadOnlyAccess系统策略权限并自定义OpenAPI权限。具体操作,请参见为RAM角色授权。OpenAPI权限策略内容如下: - // 添加该权限代表授权灵骏AI助手代替用户进行灵骏节点自动化运维操作。 { "Version": "1", "Statement": [ { "Effect": "Allow", "Action": "eflo:*", "Resource": "*" }, { "Effect": "Allow", "Action": "cms:DescribeSystemEventAttribute", "Resource": "*" } ] }
(可选)开启PAI的AI Master和EasyCKPT功能
如需使用训练任务快速恢复,您需要开启PAI的AI Master和EasyCKPT功能。具体操作步骤,请参见: