文档

AI助手使用说明

更新时间:

PAI AIMaster和灵骏AI助手是一套全自动化的故障快速恢复系统。安装AI助手并开启PAI的作业监控和恢复功能后,当训练任务发生故障或异常时,能自动上报故障信息、隔离问题节点,无需人工干预即可快速恢复任务。本文为您介绍AI助手的具体配置方法。

前提条件

已创建带有ACK灵骏托管版的集群。具体操作,请参见创建带有ACK灵骏托管版的集群

功能介绍

安装AI助手并完成RRSA授权操作后,提交训练任务时,您需要开启PAI的AIMaster和EasyCKPT功能。当发生故障或异常时,通过AI助手底层的告警系统可以自动和PAI进行交互,上报故障信息,并根据故障触发阶段和并行策略选择规避故障方法,对故障机自动进行隔离,并从Checkpoint快速恢复任务。AI助手提供的具体功能如下:

  • 异常采集和上报:通过AI助手的告警系统自动和PAI进行交互。

  • 故障隔离:对故障机自动进行隔离。

  • 异常处理:通过告警触发PAI创建Checkpoint并快速恢复任务。

配置方法

  1. 安装ack-lingjun-aiast组件。

    1. 登录容器服务管理控制台,在左侧导航栏选择集群

    2. 集群列表页面,单击目标集群名称,然后在左侧导航栏,选择运维管理 > 组件管理

    3. 组件管理页面,单击其他页签,找到ack-lingjun-aiast组件,单击组件右下方的安装

    4. 在提示对话框确认组件信息后,单击确定

  2. 为集群开启RRSA功能。

    1. 在目标集群的左侧导航栏,单击集群信息

    2. 在集群详情页面,单击基本信息页签,在集群信息区域单击RRSA OIDC右侧的启用RRSA。详情请参见通过RRSA配置ServiceAccount的RAM权限实现Pod权限隔离

    3. 在弹出的对话框中,单击确定

  3. 安装ack-pod-identity-webhook组件。具体操作,请参见ack-pod-identity-webhook

  4. 创建一个名为aiph-ack-rrsa-role的RAM角色。

    1. 使用阿里云账号登录RAM控制台

    2. 在左侧导航栏,选择身份管理 > 角色

    3. 角色页面,单击创建角色

    4. 创建角色面板,选择可信实体类型为身份提供商,然后单击下一步

    5. 配置角色配置项,配置如下角色信息后,单击完成

      配置项

      描述

      角色名称

      aiph-ack-rrsa-role

      身份提供商类型

      OIDC

      选择身份提供商

      ack-rrsa-<cluster_id>。其中,<cluster_id>为您的集群ID。

      限制条件

      • oidc:iss:默认即可。

      • oidc:aud:选择sts.aliyuncs.com

      • oidc:sub条件判定方式选择StringEquals,值的格式为system:serviceaccount:aiph-ops:aiph-manager

  5. 为上一步创建的角色授予AliyunCSReadOnlyAccess系统策略权限,以及AI助手需要的自定义OpenAPI权限。自定义OpenAPI权限信息如下,如何创建自定义权限策略,请参见创建自定义权限策略,如何为RAM角色授权,请参见为RAM角色授权

    # 注:添加该权限即代表授权AI助手代替用户进行灵骏节点自动化运维操作。
    
    {
       "Statement": [
          {
             "Effect": "Allow",
             "Action": [
               "eflo:*"
             ],
             "Resource": [
                "acs:eflo:*"
             ]
          },
          {
             "Effect": "Allow",
             "Action": "cms:DescribeSystemEventAttribute",
             "Resource": "acs:cms:*"
          }
       ],
       "Version": "1"
    }

后续步骤

如需使用训练任务快速恢复,您需要开启PAI的AI Master和EasyCKPT功能。具体操作步骤,请参见:

  • 本页导读 (1)
文档反馈