AI一键诊断功能旨在对AI业务场景中的系统异常进行诊断,并生成相关的诊断结论、GPU运行状态及AI作业运行状态,以便帮助开发人员快速定位应用中的问题。本文将介绍AI诊断的使用说明。
使用限制
地域限制
本功能目前仅支持中国内地与中国香港。
操作系统限制
架构
操作系统
x86
Alibaba Cloud Linux 3
Alibaba Cloud Linux 3 Pro
实例限制
本功能仅适用于GPU实例。
应用场景
本文列举了常见场景,您可以利用该功能进行诊断分析。
推理服务或训练出现异常情况,例如任务
hang
、推理延迟等。GPU出现异常,例如掉卡、XID错误等。
NCCL(NVIDIA Collective Communications Library)异常,例如网络
hang
、算子hang
等。
前提条件
如果您使用RAM用户,请确保阿里云账号(主账号)已将系统策略
AliyunECSReadOnlyAccess
和AliyunSysomFullAccess
授予RAM用户。已开通控制台权限。
首次登录操作系统控制台时,单击开通服务以开通控制台服务。
操作步骤
该文章对您有帮助吗?