GPU实例稳定性最佳实践
本实验带您体验如何通过阿里云ECS自主诊断服务,诊断GPU和服务器存在的隐患,快速定位问题。
场景简介
本实验带您体验如何通过阿里云ECS自主诊断服务,诊断GPU和服务器存在的隐患,快速定位问题。如果GPU硬件异常将通过诊断问题和自主上报问题给阿里云,如果阿里云确认硬件存在问题会发送运维事件通知给客户,客户响应事件后可以自动规避风险。
费用说明
本实验时长1个小时,预计产生费用为9.62元。如果您调整了资源规格、使用时长,或执行了本方案以外的操作,可能导致费用发生变化,请以控制台显示的实际价格和最终账单为准。
背景知识
本场景主要涉及以下云产品和服务:
创建实验资源
在实验页面,勾选我已阅读并同意《阿里云云起实践平台服务协议》和我已授权阿里云云起实践平台创建、读取及释放实操相关资源后,单击开始实操。
创建资源需要5分钟左右的时间,请您耐心等待。
在云产品资源列表,您可以查看本场景涉及的云产品资源信息。

通过控制台自助排查功能诊断GPU
登录ECS管理控制台。
在左侧导航栏中,单击自助问题排查。

在页面左侧顶部,选择目标GPU实例所在地域。
说明在左侧云产品资源列表中可查看GPU实例所在地域。

在实例问题排查页签下,选择问题排查类型、检查项、实例ID和排查周期。在本实验中,选择,排查周期保持默认即可,单击开始排查。
说明在左侧云产品资源列表中可查看GPU实例的实例ID。

请您稍等片刻,在诊断完成后,您可以查看诊断报告。

诊断报告包括以下信息:
配置项
说明
诊断结果
如果各项检查均正常,则显示为实例未发现异常。
如果存在异常诊断项,则显示为实例存在***项异常,并显示异常详情和相应的修复方案,您可以参考修复方案解决问题。
诊断项详情
本文包含GPU设备和驱动的状态检查、NVIDIA Xid工具异常检查、GPU显存状态检查、Fabricmanager组件异常检查、GPU驱动状态检查,级别分为严重、警告和通过。
诊断基础信息
包括资源ID、报告ID和诊断时间。
通过云助手插件一键诊断GPU
在左侧导航栏,选择。

在ECS实例页签下,选择目标GPU实例,单击对应操作栏下的执行命令。

在创建执行命令面板的命令信息区域,根据如下说明配置参数,未提及的参数保持默认即可,然后单击执行,通过云助手命令诊断GPU实例健康状态。
说明更多参数说明,请参见创建命令。
参数取值必须按照本教程提供的取值来设置,否则可能会导致云助手执行失败。
参数说明:
命令类型:选择Shell。
命令内容:粘贴如下命令,添加至命令内容框中。
说明有关Shell命令的示例,请参见查看实例系统配置。
if acs-plugin-manager --list --local | grep ACS-ECS-GpuCheck > /dev/null 2>&1 then acs-plugin-manager --remove --plugin ACS-ECS-GpuCheck fi acs-plugin-manager --exec --plugin ACS-ECS-GpuCheck超时时间:命令执行超时时间。当执行命令的任务超时后,云助手将强制终止任务进程。本实验该参数取值为180。
说明超时时间仅支持设置为正整数,单位为秒,取值范围:10~86400秒(24小时)。

在实例列表面板,可以查看到通过云助手命令诊断GPU实例健康状态的结果。
执行结果中各检查项均显示
OK状态,表示GPU诊断无异常。
执行结果中某个或多个检查项显示
Failed状态,表示GPU诊断出现异常(例如Double Bit Error Check)。
诊断项和诊断结果说明
通过云助手插件一键诊断GPU状态,具体诊断项说明如下:
诊断项 | 诊断说明 | 异常处理措施 |
Double Bit Error Check | 检测GPU的Double Bit Error情况 | 根据错误数不同会提示用户重启实例。 |
Info Rom Corrupted Check | 检测GPU的infoROM固件信息 | 会向用户发送运维通知。 |
eRDMA Incorrect Check | 检测GPU的eRDMA网卡状态 | 会向用户发送运维通知。 |
Kernel Upgrade Check | 检测由于Kernel升级导致驱动异常情况 | 需要用户卸载驱动后重新安装驱动。 |
Fabricmanager running Check | 检测Fabricmanager组件运行状态 | 需要用户安装或启动Fabricmanager组件服务。 |
Power Cable Error Check | 检测GPU电源线及供电状态 | 会向用户发送运维通知。 |
GPU Device Lost Check | 检测GPU丢卡情况 | 会向用户发送运维通知。 |
GPU Driver Install Check | 检测GPU驱动的安装状态 | 需要用户安装驱动。 |
GPU Xid Error Check | 检测GPU Xid error异常情况 | 根据不同的XID错误提示用户重启实例。 |
清理资源
在完成实验后,如果无需继续使用资源,选择不保留资源,单击结束实操。在结束实操对话框中,单击确定。

在完成实验后,如果需要继续使用资源,选择付费保留资源,单击结束实操。在结束实操对话框中,单击确定。请随时关注账户扣费情况,避免发生欠费。







