GPU诊断功能旨在对AI业务场景中的系统异常进行诊断,并生成相关的诊断结论、GPU运行状态及AI作业运行状态,以便帮助开发人员快速定位应用中的问题。本文将介绍GPU诊断的使用说明。
使用限制
地域限制
本功能目前仅支持中国内地与中国香港。
操作系统限制
架构
操作系统
x86
Alibaba Cloud Linux 3
Alibaba Cloud Linux 2
Ubuntu22.04
Ubuntu24.04
实例限制
本功能仅适用于GPU实例。
慢节点诊断限制
应用场景
本文列举了常见场景,您可以利用该功能进行诊断分析。
推理服务或训练出现异常情况,例如任务
hang、推理延迟等。GPU出现异常,例如掉卡、XID错误等。
面向大模型训练场景的慢节点诊断,帮助用户快速找到导致训练速度慢的节点。
NCCL(NVIDIA Collective Communications Library)异常,例如网络
hang、算子hang等。
前提条件
操作步骤
访问操作系统控制台。
为目标ECS实例安装SysOM。
在左侧导航栏,选择.
以慢节点诊断为例,诊断页面包含两部分:
输入诊断参数,诊断参数有两个:
训练任务ID:一般是训练任务的pod名字,如两节点的训练任务的名字分别是traintask-82asd33as-master-0和traintask-82asd33as-worker-0,则训练任务ID为traintask-82asd33as
运行时长:表示诊断运行的时长,单位是秒。

历史诊断结果:
分析ID:每次发起诊断的任务ID
分析时间:诊断发起时间
分析参数:诊断的参数详情
分析状态:包含三种状态,分别是分析中,分析完成和采集失败
操作:可以查看对应诊断报告

执行诊断后可在分析记录区域,单击查看报告。

诊断结果显示NCCL
hang问题的报告如下图所示:
慢节点诊断结果页面如下图所示:

结果页面分为三部分:
基础信息
资源ID
诊断报告ID
诊断项
诊断发起时间
分析结论,给出哪个节点是慢节点。
原始数据,将采集的训练任务的数据通过perfetto呈现出来。