使用云助手插件对GPU实例进行DCGM健康诊断

更新时间:
复制为 MD 格式

当您的 GPU 实例出现性能波动、驱动异常或疑似硬件故障时,通过云助手插件 ACS-ECS-DcgmDiagnostics,您可以一键执行 NVIDIA DCGM 诊断。该插件会自动下载依赖项并运行全方位的健康检查,帮助您快速定位问题并提升运维效率。

概述

NVIDIA 数据中心 GPU 管理器 (DCGM) 是一套用于管理和监控集群环境中 NVIDIA GPU 的综合工具集。它能够提供主动健康监测、全面诊断及系统警报。

使用云助手插件执行诊断的优势:

  • 零预装成本:即使您的环境未安装 DCGM 服务,插件也会自动下载相关的dcgm库文件及诊断组件。

  • 自动化流程:一键完成环境检测、依赖下载、诊断执行及结果输出。

适用场景

  • 实例交付验收:新购买GPU实例后,检查硬件及驱动是否处于最佳状态。

  • 故障排查:当深度学习任务报错或计算效率大幅下降时,定位是否存在硬件隐患。

  • 性能压测前置检查:在进行大规模计算任务前,确保 GPU 功耗、散热及显存正常。

前提条件

在执行诊断操作前,请确保满足以下条件:

  • 实例规格:目标实例必须为GPU云服务器

  • 云助手状态:实例已安装云助手插件

执行诊断操作

  1. 使用Workbench登录Linux实例

  2. 执行诊断命令

    使用 acs-plugin-manager 执行诊断插件,请根据需求替换 {Level} 参数。

    acs-plugin-manager --exec --plugin ACS-ECS-DcgmDiagnostics -p "--diag-level {Level}"

    诊断级别{Level}参数说明

    您可以根据需要选择以下三种诊断级别:

    参数级别

    描述

    建议场景

    short

    对系统进行基本的快速健康检查。

    日常快速巡检,耗时最短。

    medium

    运行中等长度的诊断程序,涵盖更多压力测试。

    发现疑似性能问题时的初步排查。

    long

    进行非常全面的深度诊断及长时间压力测试。

    严重故障排查或交付前的硬件验收。

    诊断级别越高,执行时间越长(long级别的诊断可能持续数分钟),执行期间可能会占用较高的 GPU 资源。更多信息,请参见 DCGM Diagnostics

结果示例

执行完成后,终端将输出如下格式的诊断报告。以下是在 ecs.gn7i-c8g1.2xlarge 实例上执行 long 级别诊断的示例输出:

+-------------------------+------------------------------------+
| Diagnostic              | Result                             |
+=========================+====================================+
| Metadata                |                                    |
+-------------------------+------------------------------------+
| DCGM Version            | 4.5.2                              |
+-------------------------+------------------------------------+
| Driver Version Detected | 580.126.09                         |
+-------------------------+------------------------------------+
| software                | Pass                               |
|                         |                                    |
|                         | GPU0 0000:00:03.0 NVIDIA A10: Pass |
+-------------------------+------------------------------------+
| memory                  | Pass                               |
|                         |                                    |
|                         | GPU0 0000:00:03.0 NVIDIA A10: Pass |
+-------------------------+------------------------------------+
| diagnostic              | Pass                               |
|                         |                                    |
|                         | GPU0 0000:00:03.0 NVIDIA A10: Pass |
+-------------------------+------------------------------------+
| nvbandwidth             | Skip                               |
|                         |                                    |
|                         | GPU0 0000:00:03.0 NVIDIA A10: Skip |
+-------------------------+------------------------------------+
| pcie                    | Pass                               |
|                         |                                    |
|                         | GPU0 0000:00:03.0 NVIDIA A10: Pass |
+-------------------------+------------------------------------+
| memory_bandwidth        | Pass                               |
|                         |                                    |
|                         | GPU0 0000:00:03.0 NVIDIA A10: Pass |
+-------------------------+------------------------------------+
| targeted_stress         | Pass                               |
|                         |                                    |
|                         | GPU0 0000:00:03.0 NVIDIA A10: Pass |
+-------------------------+------------------------------------+
| targeted_power          | Pass                               |
|                         |                                    |
|                         | GPU0 0000:00:03.0 NVIDIA A10: Pass |
+-------------------------+------------------------------------+

常见问题

  • 如何自动化批量诊断实例?

    可通过云助手公共命令ACS-ECS-DCGMDiagnostic-for-linux.sh在多个实例上批量执行DCGM诊断。

  • 所有GPU规格都支持 DCGM 诊断吗?

    在 Tesla GPU 规格上支持所有DCGM诊断Level, 其他GPU卡仅支持 Level 1 (short) 诊断。详情请参见NVIDIA DCGM Feature Overview