AI诊断

AI一键诊断功能旨在对AI业务场景中的系统异常进行诊断,并生成相关的诊断结论、GPU运行状态及AI作业运行状态,以便帮助开发人员快速定位应用中的问题。本文将介绍AI诊断的使用说明。

使用限制

  • 地域限制

    本功能目前仅支持中国内地与中国香港。

  • 操作系统限制

    架构

    操作系统

    x86

    Alibaba Cloud Linux 3

    Alibaba Cloud Linux 3 Pro

  • 实例限制

    本功能仅适用于GPU实例。

应用场景

本文列举了常见场景,您可以利用该功能进行诊断分析。

  • 推理服务或训练出现异常情况,例如任务hang、推理延迟等。

  • GPU出现异常,例如掉卡、XID错误等。

  • NCCL(NVIDIA Collective Communications Library)异常,例如网络hang、算子hang等。

前提条件

  • 如果您使用RAM用户,请确保阿里云账号(主账号)已将系统策略AliyunECSReadOnlyAccessAliyunSysomFullAccess授予RAM用户

  • 已开通控制台权限。

    首次登录操作系统控制台时,单击开通服务以开通控制台服务。

操作步骤

  1. 登录操作系统控制台

  2. 为目标ECS实例安装SysOM

  3. 在左侧导航栏,选择AI性能与诊断 > AI诊断

  4. 选择目标实例,单击执行诊断

    image

  5. 分析记录区域,单击查看报告

    image

    例如,诊断结果显示NCCL hang问题的报告如下图所示。

    image