PAI AIMaster+灵骏AI助手是一套全自动的故障快速恢复系统。该系统能够实时监测并分析系统的运行状态,快速检测故障并采取恢复措施,例如硬件故障、网络故障、软件错误等,从而降低运维成本,提高系统可靠性和稳定性。
组件介绍
安装灵骏AI助手开启PAI的作业监控和恢复功能后,当发生故障或异常时,灵骏AI助手的告警系统可以自动和PAI进行交互,并上报故障信息,并根据故障触发阶段和并行策略选择规避故障的方法,自动隔离故障节点,并通过checkpoint快速恢复任务。灵骏AI助手提供以下功能:
异常采集和上报:通过灵骏AI助手的告警系统自动和PAI进行交互。
故障隔离:自动隔离故障节点。
异常处理:通过告警触发PAI创建checkpoint并快速恢复任务。
灵骏AI助手可通过ACK灵骏的组件管理安装,安装后需要RRSA授权。
安装ack-lingjun-aiast组件
具体操作,请参见管理组件。
RRSA授权流程
步骤一:启用RRSA功能
具体操作,请参见通过RRSA配置ServiceAccount的RAM权限实现Pod权限隔离。
步骤二:使用RRSA为灵骏AI助手进行授权
安装ack-pod-identity-webhook组件,用于实现身份认证。具体操作,请参见ack-pod-identity-webhook。
创建RAM角色,角色名称为
aiph-ack-rrsa-role
。具体操作,请参见创建OIDC身份提供商的RAM角色。配置项
描述
角色名称
设置为
aiph-ack-rrsa-role
。备注
选填有关该角色的备注信息。
身份提供商类型
选择OIDC。
选择身份提供商
格式为ack-rrsa-<cluster_id>。其中
<cluster_id>
为您的集群ID。限制条件
oidc:iss:保持默认。
oidc:aud:选择
sts.aliyuncs.com
。oidc:sub:条件判定方式选择
StringEquals
,值为system:serviceaccount:aiph-ops:aiph-manager
。
为步骤2创建的角色授予AliyunCSReadOnlyAccess系统策略权限并自定义OpenAPI权限。具体操作,请参见为RAM角色授权。OpenAPI权限策略内容如下:
// 添加该权限代表授权灵骏AI助手代替用户进行灵骏节点自动化运维操作。 { "Version": "1", "Statement": [ { "Effect": "Allow", "Action": "eflo:*", "Resource": "*" }, { "Effect": "Allow", "Action": "cms:DescribeSystemEventAttribute", "Resource": "*" } ] }
(可选)开启PAI的AI Master和EasyCKPT功能
如需使用训练任务快速恢复,您需要开启PAI的AI Master和EasyCKPT功能。具体操作步骤,请参见: