GPU稳定性最佳实践

更新时间:2025-03-03 07:36:02

随着AI、深度学习、科学计算和大数据处理等技术的发展,GPU成为高性能计算的关键组件。为保障服务器稳定运行,阿里云提供巡检服务以提前发现硬件故障,支持您通过自助诊断功能快速定位问题。

重要

本文仅适用于Linux操作系统。

应用场景

  • GPU服务器问题诊断

    通过阿里云ECS自主诊断服务功能对GPU服务器潜在隐患进行诊断,从而能够快速定位问题。

  • GPU服务运维

    • 阿里云检测到GPU硬件问题时,将主动向您发送运维事件通知。您只需对系统事件作出响应,即可实现故障的自动恢复。关于响应系统事件说明,请参见响应ECS系统事件

    • 您可以通过自助诊断系统或调用ReportInstancesStatus反馈一台或多台GPU实例所发生的异常问题。阿里云在收到上报后会对实例进行异常检测,如果确实存在异常,将主动向您发送运维事件通知。您只需对系统事件作出响应,即可实现故障的自动恢复。

    重要

    响应系统事件后,实例将重启,从而引发业务中断的风险。建议您在业务低峰期选择以下一种方式进行服务重启。

GPU硬件设备诊断

GPU实例的运行过程中,可能会出现潜在的故障隐患或安全风险,例如显卡故障或驱动程序错误等问题。您可以通过以下方法进行诊断:

  • 通过ECS管理控制台启动GPU设备健康检查功能,以便自主诊断当前实例的GPU卡或驱动是否存在异常。

  • 通过云助手插件对当前实例的GPU卡状态及驱动状态等进行全面诊断,从而快速识别使用GPU时遇到的常见问题(例如GPU卡异常、驱动异常等)。一旦诊断出异常情况,系统能够自动发起运维措施,例如向您发送通知等。

通过自助问题排查功能诊断GPU

  1. 登录ECS管理控制台

  2. 在左侧导航栏,单击自助问题排查

  3. 在页面左侧顶部,选择目标GPU实例所在地域。

  4. 实例问题排查页签下,选择问题排查类型、检查项、实例ID和排查周期,单击开始排查

    111

    诊断完成后查看诊断报告。

    image

    诊断报告信息说明:

    项目

    说明

    项目

    说明

    诊断结果

    • 如果各项加内存均正常,则显示实例未发现异常。

    • 如果存在异常诊断项,则显示为实例存在***项异常,并显示异常详情和相应的解决方案,您可以参考修复方案解决问题。

    诊断项详情

    包含GPU设备和驱动的状态检查、NVIDIA Xid工具异常检查、GPU显存状态检查、Fabricmanager组件异常检查以及GPU驱动状态检查。级别分为严重、警告和通过。

    诊断基础信息

    资源ID、报告ID和诊断时间。

通过云助手一键诊断GPU

  1. 登录ECS管理控制台

  2. 在左侧导航栏,选择运维与监控 > 云助手

  3. 在页面左侧顶部,选择目标GPU实例所在地域。

  4. ECS实例页签下的实例列表,单击实例所在行操作栏的执行命令

  5. 创建执行命令面板的命令信息区域,完成参数配置。

    主要参数项如下图所示,其他参数保持默认。更多信息,请参见创建命令

    2025-02-24_17-23-58

    重要

    参数取值必须严格遵循下文所提供的取值设置,否则可能会导致云助手执行失败。

    • 命令类型:Shell。

    • 命令内容:复制如下命令。有关Shell命令的示例,请参见查看实例系统配置

      if acs-plugin-manager --list --local | grep ACS-ECS-GpuCheck > /dev/null 2>&1
      then
          acs-plugin-manager --remove --plugin ACS-ECS-GpuCheck
      fi
      acs-plugin-manager --exec --plugin ACS-ECS-GpuCheck
    • 超时时间:命令执行超时时间。当执行命令的任务超时后,云助手将强制终止任务进程。

      说明

      超时时间仅支持设置为正整数,单位为秒,取值范围:10~86400秒(24小时)。

  6. 单击执行,通过云助手命令诊断GPU实例健康状态。

    • 执行结果中各检查项均显示OK状态,表示GPU诊断无异常。

      image

    • 执行结果中某个或多个检查项显示Failed状态,表示GPU诊断出现异常。

      image

    诊断信息说明:

    诊断项

    诊断说明

    异常处理措施

    诊断项

    诊断说明

    异常处理措施

    Double Bit Error Check

    检测GPUDouble Bit Error情况。

    根据错误数不同会提示您重启实例。

    Info Rom Corrupted Check

    检测GPUinfoROM固件信息。

    向您发送运维通知。

    eRDMA Incorrect Check

    检测GPUeRDMA网卡状态。

    向您发送运维通知。

    Kernel Upgrade Check

    检测由于Kernel升级导致驱动异常情况。

    需您卸载驱动后重新安装驱动。

    Fabricmanager running Check

    检测Fabricmanager组件运行状态。

    需您安装或启动Fabricmanager组件服务。

    Power Cable Error Check

    检测GPU电源线及供电状态。

    向您发送运维通知。

    GPU Device Lost Check

    检测GPU丢卡情况。

    向您发送运维通知。

    GPU Driver Install Check

    检测GPU驱动的安装状态。

    需您安装驱动。

    GPU Xid Error Check

    检测GPU Xid Error异常情况。

    根据不同的XID错误提示您重启实例。

  • 本页导读 (1)
  • 应用场景
  • GPU硬件设备诊断
  • 通过自助问题排查功能诊断GPU
  • 通过云助手一键诊断GPU