GPU实例稳定性最佳实践

更新时间:
复制为 MD 格式

本实验带您体验如何通过阿里云ECS自主诊断服务,诊断GPU和服务器存在的隐患,快速定位问题。

场景简介

本实验带您体验如何通过阿里云ECS自主诊断服务,诊断GPU和服务器存在的隐患,快速定位问题。如果GPU硬件异常将通过诊断问题和自主上报问题给阿里云,如果阿里云确认硬件存在问题会发送运维事件通知给客户,客户响应事件后可以自动规避风险。

费用说明

本实验时长1个小时,预计产生费用为9.62元。如果您调整了资源规格、使用时长,或执行了本方案以外的操作,可能导致费用发生变化,请以控制台显示的实际价格和最终账单为准。

背景知识

本场景主要涉及以下云产品和服务:

创建实验资源

  1. 在实验页面,勾我已阅读并同意《阿里云云起实践平台服务协议》我已授权阿里云云起实践平台创建、读取及释放实操相关资源后,单击开始实操

  2. 创建资源需要5分钟左右的时间,请您耐心等待。

  3. 云产品资源列表,您可以查看本场景涉及的云产品资源信息。

    image

通过控制台自助排查功能诊断GPU

  1. 登录ECS管理控制台

  2. 在左侧导航栏中,单击自助问题排查

    image

  3. 在页面左侧顶部,选择目标GPU实例所在地域。

    说明

    在左侧云产品资源列表中可查看GPU实例所在地域。

    image

  4. 实例问题排查页签下,选择问题排查类型、检查项、实例ID和排查周期。在本实验中,选择实例设备检测 > GPU设备监控 > 实例ID,排查周期保持默认即可,单击开始排查

    说明

    在左侧云产品资源列表中可查看GPU实例的实例ID。

    image

  5. 请您稍等片刻,在诊断完成后,您可以查看诊断报告。

    image

    诊断报告包括以下信息:

    配置项

    说明

    诊断结果

    • 如果各项检查均正常,则显示为实例未发现异常

    • 如果存在异常诊断项,则显示为实例存在***项异常,并显示异常详情和相应的修复方案,您可以参考修复方案解决问题。

    诊断项详情

    本文包含GPU设备和驱动的状态检查、NVIDIA Xid工具异常检查、GPU显存状态检查、Fabricmanager组件异常检查、GPU驱动状态检查,级别分为严重、警告和通过。

    诊断基础信息

    包括资源ID、报告ID和诊断时间。

通过云助手插件一键诊断GPU

  1. 在左侧导航栏,选择运维与监控 > 云助手

    image

  2. ECS实例页签下,选择目标GPU实例,单击对应操作栏下的执行命令

    image

  3. 创建执行命令面板的命令信息区域,根据如下说明配置参数,未提及的参数保持默认即可,然后单击执行,通过云助手命令诊断GPU实例健康状态。

    说明
    • 更多参数说明,请参见创建命令

    • 参数取值必须按照本教程提供的取值来设置,否则可能会导致云助手执行失败。

    参数说明:

    • 命令类型:选择Shell

    • 命令内容:粘贴如下命令,添加至命令内容框中。

      说明

      有关Shell命令的示例,请参见查看实例系统配置

      if acs-plugin-manager --list --local | grep ACS-ECS-GpuCheck > /dev/null 2>&1
      then
          acs-plugin-manager --remove --plugin ACS-ECS-GpuCheck
      fi
      acs-plugin-manager --exec --plugin ACS-ECS-GpuCheck
    • 超时时间:命令执行超时时间。当执行命令的任务超时后,云助手将强制终止任务进程。本实验该参数取值为180。

      说明

      超时时间仅支持设置为正整数,单位为秒,取值范围:10~86400秒(24小时)。

      image

  4. 实例列表面板,可以查看到通过云助手命令诊断GPU实例健康状态的结果。

    • 执行结果中各检查项均显示OK状态,表示GPU诊断无异常。

      image

    • 执行结果中某个或多个检查项显示Failed状态,表示GPU诊断出现异常(例如Double Bit Error Check)。

      image

诊断项和诊断结果说明

通过云助手插件一键诊断GPU状态,具体诊断项说明如下:

诊断项

诊断说明

异常处理措施

Double Bit Error Check

检测GPUDouble Bit Error情况

根据错误数不同会提示用户重启实例。

Info Rom Corrupted Check

检测GPUinfoROM固件信息

会向用户发送运维通知。

eRDMA Incorrect Check

检测GPUeRDMA网卡状态

会向用户发送运维通知。

Kernel Upgrade Check

检测由于Kernel升级导致驱动异常情况

需要用户卸载驱动后重新安装驱动。

Fabricmanager running Check

检测Fabricmanager组件运行状态

需要用户安装或启动Fabricmanager组件服务。

Power Cable Error Check

检测GPU电源线及供电状态

会向用户发送运维通知。

GPU Device Lost Check

检测GPU丢卡情况

会向用户发送运维通知。

GPU Driver Install Check

检测GPU驱动的安装状态

需要用户安装驱动。

GPU Xid Error Check

检测GPU Xid error异常情况

根据不同的XID错误提示用户重启实例。

清理资源

  • 在完成实验后,如果无需继续使用资源,选择不保留资源,单击结束实操。在结束实操对话框中,单击确定

    image

  • 在完成实验后,如果需要继续使用资源,选择付费保留资源,单击结束实操。在结束实操对话框中,单击确定。请随时关注账户扣费情况,避免发生欠费。

    image