通过云助手插件可以对当前实例的GPU卡状态或驱动状态等方面进行全方位诊断,帮助您快速检测使用GPU时遇到的一些常见问题(例如GPU卡异常、驱动异常等),一旦诊断出异常情况,可以自动发起运维动作,例如发送通知给用户等。
操作步骤
本文适用于诊断Linux操作系统GPU实例,该GPU实例在创建时已默认预装了云助手插件,关于云助手的详细信息,请参见云助手概述。
登录ECS管理控制台。
在左侧导航栏,选择 。
在页面左侧顶部,选择目标GPU实例所在地域。
在ECS实例页签下的实例列表,选择目标实例,单击对应操作栏下的执行命令。
在创建执行命令面板的命令信息区域,完成参数配置。
主要参数配置项如下所示,其他参数保持默认。更多信息,请参见创建命令。
重要参数取值必须按照下文提供的取值来设置,否则可能会导致云助手执行失败。
①命令类型:选择Shell。
②命令内容:粘贴如下命令。有关Shell命令的示例,请参见查看实例系统配置。
if acs-plugin-manager --list --local | grep ACS-ECS-GpuCheck > /dev/null 2>&1 then acs-plugin-manager --remove --plugin ACS-ECS-GpuCheck fi acs-plugin-manager --exec --plugin ACS-ECS-GpuCheck
③超时时间:命令执行超时时间。当执行命令的任务超时后,云助手将强制终止任务进程。取值:180。
说明超时时间仅支持设置为正整数,单位为秒,取值范围:10~86400秒(24小时)。
单击执行,通过云助手命令诊断GPU实例健康状态。
执行结果中各检查项均显示
OK
状态,表示GPU诊断无异常。执行结果中某个或多个检查项显示
Failed
状态,表示GPU诊断出现异常(例如Double Bit Error Check
)。
诊断项和诊断结果说明
通过云助手插件一键诊断GPU状态,具体诊断项说明如下:
诊断项 | 诊断说明 | 异常处理措施 |
Double Bit Error Check | 检测GPU的Double Bit Error情况 | 根据错误数不同会提示用户重启实例。 |
Info Rom Corrupted Check | 检测GPU的infoROM固件信息 | 会向用户发送运维通知。 |
eRDMA Incorrect Check | 检测GPU的eRDMA网卡状态 | 会向用户发送运维通知。 |
Kernel Upgrade Check | 检测由于Kernel升级导致驱动异常情况 | 需要用户卸载驱动后重新安装驱动。 |
Fabricmanager running Check | 检测Fabricmanager组件运行状态 | 需要用户安装或启动Fabricmanager组件服务。 |
Power Cable Error Check | 检测GPU电源线及供电状态 | 会向用户发送运维通知。 |
GPU Device Lost Check | 检测GPU丢卡情况 | 会向用户发送运维通知。 |
GPU Driver Install Check | 检测GPU驱动的安装状态 | 需要用户安装驱动。 |
GPU Xid Error Check | 检测GPU Xid error异常情况 | 根据不同的XID错误提示用户重启实例。 |