当您的 GPU 实例出现性能波动、驱动异常或疑似硬件故障时,通过云助手插件 ACS-ECS-DcgmDiagnostics,您可以一键执行 NVIDIA DCGM 诊断。该插件会自动下载依赖项并运行全方位的健康检查,帮助您快速定位问题并提升运维效率。
概述
NVIDIA 数据中心 GPU 管理器 (DCGM) 是一套用于管理和监控集群环境中 NVIDIA GPU 的综合工具集。它能够提供主动健康监测、全面诊断及系统警报。
使用云助手插件执行诊断的优势:
零预装成本:即使您的环境未安装 DCGM 服务,插件也会自动下载相关的
dcgm库文件及诊断组件。自动化流程:一键完成环境检测、依赖下载、诊断执行及结果输出。
适用场景
实例交付验收:新购买GPU实例后,检查硬件及驱动是否处于最佳状态。
故障排查:当深度学习任务报错或计算效率大幅下降时,定位是否存在硬件隐患。
性能压测前置检查:在进行大规模计算任务前,确保 GPU 功耗、散热及显存正常。
前提条件
在执行诊断操作前,请确保满足以下条件:
实例规格:目标实例必须为GPU云服务器。
云助手状态:实例已安装云助手插件。
执行诊断操作
执行诊断命令:
使用
acs-plugin-manager执行诊断插件,请根据需求替换{Level}参数。acs-plugin-manager --exec --plugin ACS-ECS-DcgmDiagnostics -p "--diag-level {Level}"诊断级别
{Level}参数说明:您可以根据需要选择以下三种诊断级别:
参数级别
描述
建议场景
short
对系统进行基本的快速健康检查。
日常快速巡检,耗时最短。
medium
运行中等长度的诊断程序,涵盖更多压力测试。
发现疑似性能问题时的初步排查。
long
进行非常全面的深度诊断及长时间压力测试。
严重故障排查或交付前的硬件验收。
诊断级别越高,执行时间越长(long级别的诊断可能持续数分钟),执行期间可能会占用较高的 GPU 资源。更多信息,请参见 DCGM Diagnostics。
结果示例
执行完成后,终端将输出如下格式的诊断报告。以下是在 ecs.gn7i-c8g1.2xlarge 实例上执行 long 级别诊断的示例输出:
+-------------------------+------------------------------------+
| Diagnostic | Result |
+=========================+====================================+
| Metadata | |
+-------------------------+------------------------------------+
| DCGM Version | 4.5.2 |
+-------------------------+------------------------------------+
| Driver Version Detected | 580.126.09 |
+-------------------------+------------------------------------+
| software | Pass |
| | |
| | GPU0 0000:00:03.0 NVIDIA A10: Pass |
+-------------------------+------------------------------------+
| memory | Pass |
| | |
| | GPU0 0000:00:03.0 NVIDIA A10: Pass |
+-------------------------+------------------------------------+
| diagnostic | Pass |
| | |
| | GPU0 0000:00:03.0 NVIDIA A10: Pass |
+-------------------------+------------------------------------+
| nvbandwidth | Skip |
| | |
| | GPU0 0000:00:03.0 NVIDIA A10: Skip |
+-------------------------+------------------------------------+
| pcie | Pass |
| | |
| | GPU0 0000:00:03.0 NVIDIA A10: Pass |
+-------------------------+------------------------------------+
| memory_bandwidth | Pass |
| | |
| | GPU0 0000:00:03.0 NVIDIA A10: Pass |
+-------------------------+------------------------------------+
| targeted_stress | Pass |
| | |
| | GPU0 0000:00:03.0 NVIDIA A10: Pass |
+-------------------------+------------------------------------+
| targeted_power | Pass |
| | |
| | GPU0 0000:00:03.0 NVIDIA A10: Pass |
+-------------------------+------------------------------------+常见问题
如何自动化批量诊断实例?
可通过云助手公共命令
ACS-ECS-DCGMDiagnostic-for-linux.sh在多个实例上批量执行DCGM诊断。所有GPU规格都支持 DCGM 诊断吗?
在 Tesla GPU 规格上支持所有DCGM诊断Level, 其他GPU卡仅支持 Level 1 (short) 诊断。详情请参见NVIDIA DCGM Feature Overview。