GPU诊断

更新时间:
复制为 MD 格式

GPU诊断功能旨在对AI业务场景中的系统异常进行诊断,并生成相关的诊断结论、GPU运行状态及AI作业运行状态,以便帮助开发人员快速定位应用中的问题。本文将介绍GPU诊断的使用说明。

使用限制

  • 地域限制

    本功能目前仅支持中国内地与中国香港。

  • 操作系统限制

    架构

    操作系统

    x86

    • Alibaba Cloud Linux 3

    • Alibaba Cloud Linux 2

    • Ubuntu22.04

    • Ubuntu24.04

  • 实例限制

    本功能仅适用于GPU实例。

  • 慢节点诊断限制

    慢节点诊断支持的NCCL版本列表

    v2.22.3.1
    v2.24.3.1
    v2.26.2.1
    v2.26.5.1
    v2.27.3.1
    v2.27.6.1
    v2.28.3.1
    v2.28.9.1
    v2.21.5.1
    v2.23.4.1
    v2.25.1.1
    v2.26.3.1
    v2.26.6.1
    v2.27.5.1
    v2.27.7.1
    v2.28.7.1

应用场景

本文列举了常见场景,您可以利用该功能进行诊断分析。

  • 推理服务或训练出现异常情况,例如任务hang、推理延迟等。

  • GPU出现异常,例如掉卡、XID错误等。

  • 面向大模型训练场景的慢节点诊断,帮助用户快速找到导致训练速度慢的节点。

  • NCCL(NVIDIA Collective Communications Library)异常,例如网络hang、算子hang等。

前提条件

  • 如果您使用RAM用户,请确保阿里云账号(主账号)已将系统策略AliyunECSReadOnlyAccessAliyunSysomFullAccess授予RAM用户

  • 已开通控制台权限。

    首次登录操作系统控制台时,单击开通服务以开通控制台服务。

  • 安装SysOM组件,安装方式请参考组件管理

操作步骤

  1. 访问操作系统控制台

  2. 为目标ECS实例安装SysOM

  3. 在左侧导航栏,选择GPU性能与诊断 > GPU诊断.

  4. 以慢节点诊断为例,诊断页面包含两部分:

    • 输入诊断参数,诊断参数有两个:

      • 训练任务ID:一般是训练任务的pod名字,如两节点的训练任务的名字分别是traintask-82asd33as-master-0traintask-82asd33as-worker-0,则训练任务IDtraintask-82asd33as

      • 运行时长:表示诊断运行的时长,单位是秒。

      image.png

    • 历史诊断结果:

      • 分析ID:每次发起诊断的任务ID

      • 分析时间:诊断发起时间

      • 分析参数:诊断的参数详情

      • 分析状态:包含三种状态,分别是分析中,分析完成和采集失败

      • 操作:可以查看对应诊断报告

      image.png

  5. 执行诊断后可在分析记录区域,单击查看报告

    image

    • 诊断结果显示NCCL hang问题的报告如下图所示:

      image

    • 慢节点诊断结果页面如下图所示:

      image.png

      结果页面分为三部分:

      1. 基础信息

        • 资源ID

        • 诊断报告ID

        • 诊断项

        • 诊断发起时间

      2. 分析结论,给出哪个节点是慢节点。

      3. 原始数据,将采集的训练任务的数据通过perfetto呈现出来。