灵骏AI助手介绍

PAI AIMaster+灵骏AI助手是一套全自动的故障快速恢复系统。该系统能够实时监测并分析系统的运行状态,快速检测故障并采取恢复措施,例如硬件故障、网络故障、软件错误等,从而降低运维成本,提高系统可靠性和稳定性。

组件介绍

安装灵骏AI助手开启PAI的作业监控和恢复功能后,当发生故障或异常时,灵骏AI助手的告警系统可以自动和PAI进行交互,并上报故障信息,并根据故障触发阶段和并行策略选择规避故障的方法,自动隔离故障节点,并通过checkpoint快速恢复任务。灵骏AI助手提供以下功能:

  • 异常采集和上报:通过灵骏AI助手的告警系统自动和PAI进行交互。

  • 故障隔离:自动隔离故障节点。

  • 异常处理:通过告警触发PAI创建checkpoint并快速恢复任务。

灵骏AI助手可通过ACK灵骏的组件管理安装,安装后需要RRSA授权。

安装ack-lingjun-aiast组件

具体操作,请参见管理组件

RRSA授权流程

步骤一:启用RRSA功能

具体操作,请参见通过RRSA配置ServiceAccount的RAM权限实现Pod权限隔离image.png

步骤二:使用RRSA为灵骏AI助手进行授权

  1. 安装ack-pod-identity-webhook组件,用于实现身份认证。具体操作,请参见ack-pod-identity-webhook

  2. 创建RAM角色,角色名称为aiph-ack-rrsa-role。具体操作,请参见创建OIDC身份提供商的RAM角色

    配置项

    描述

    角色名称

    设置为aiph-ack-rrsa-role

    备注

    选填有关该角色的备注信息。

    身份提供商类型

    选择OIDC

    选择身份提供商

    格式为ack-rrsa-<cluster_id>。其中<cluster_id>为您的集群ID。

    限制条件

    • oidc:iss:保持默认。

    • oidc:aud:选择sts.aliyuncs.com

    • oidc:sub:条件判定方式选择StringEquals,值为system:serviceaccount:aiph-ops:aiph-manager

  3. 为步骤2创建的角色授予AliyunCSReadOnlyAccess系统策略权限并自定义OpenAPI权限。具体操作,请参见为RAM角色授权。OpenAPI权限策略内容如下:

    // 添加该权限代表授权灵骏AI助手代替用户进行灵骏节点自动化运维操作。
    {
        "Version": "1",
        "Statement": [
            {
                "Effect": "Allow",
                "Action": "eflo:*",
                "Resource": "*"
            },
            {
                "Effect": "Allow",
                "Action": "cms:DescribeSystemEventAttribute",
                "Resource": "*"
            }
        ]
    }

(可选)开启PAI的AI Master和EasyCKPT功能

如需使用训练任务快速恢复,您需要开启PAI的AI Master和EasyCKPT功能。具体操作步骤,请参见: