通过云助手插件一键诊断GPU

通过云助手插件可以对当前实例的GPU卡状态或驱动状态等方面进行全方位诊断,帮助您快速检测使用GPU时遇到的一些常见问题(例如GPU卡异常、驱动异常等),一旦诊断出异常情况,可以自动发起运维动作,例如发送通知给用户等。

操作步骤

说明

本文适用于诊断Linux操作系统GPU实例,该GPU实例在创建时已默认预装了云助手插件,关于云助手的详细信息,请参见云助手概述

  1. 登录ECS管理控制台

  2. 在左侧导航栏,选择运维与监控 > 云助手

  3. 在页面左侧顶部,选择目标GPU实例所在地域。

  4. ECS实例页签下的实例列表,选择目标实例,单击对应操作栏下的执行命令

  5. 创建执行命令面板的命令信息区域,完成参数配置。

    主要参数配置项如下所示,其他参数保持默认。更多信息,请参见创建命令

    重要

    参数取值必须按照下文提供的取值来设置,否则可能会导致云助手执行失败。

    云助手.jpg

    命令类型:选择Shell

    ②命令内容:粘贴如下命令。有关Shell命令的示例,请参见查看实例系统配置

    if acs-plugin-manager --list --local | grep ACS-ECS-GpuCheck > /dev/null 2>&1
    then
        acs-plugin-manager --remove --plugin ACS-ECS-GpuCheck
    fi
    acs-plugin-manager --exec --plugin ACS-ECS-GpuCheck

    超时时间:命令执行超时时间。当执行命令的任务超时后,云助手将强制终止任务进程。取值:180

    说明

    超时时间仅支持设置为正整数,单位为秒,取值范围:10~86400秒(24小时)。

  6. 单击执行,通过云助手命令诊断GPU实例健康状态。

    • 执行结果中各检查项均显示OK状态,表示GPU诊断无异常。

      GPU State.jpg

    • 执行结果中某个或多个检查项显示Failed状态,表示GPU诊断出现异常(例如Double Bit Error Check)。

      GPU State-en.jpg

诊断项和诊断结果说明

通过云助手插件一键诊断GPU状态,具体诊断项说明如下:

诊断项

诊断说明

异常处理措施

Double Bit Error Check

检测GPU的Double Bit Error情况

根据错误数不同会提示用户重启实例。

Info Rom Corrupted Check

检测GPU的infoROM固件信息

会向用户发送运维通知。

eRDMA Incorrect Check

检测GPU的eRDMA网卡状态

会向用户发送运维通知。

Kernel Upgrade Check

检测由于Kernel升级导致驱动异常情况

需要用户卸载驱动后重新安装驱动。

Fabricmanager running Check

检测Fabricmanager组件运行状态

需要用户安装或启动Fabricmanager组件服务。

Power Cable Error Check

检测GPU电源线及供电状态

会向用户发送运维通知。

GPU Device Lost Check

检测GPU丢卡情况

会向用户发送运维通知。

GPU Driver Install Check

检测GPU驱动的安装状态

需要用户安装驱动。

GPU Xid Error Check

检测GPU Xid error异常情况

根据不同的XID错误提示用户重启实例。