通过控制台自助排查功能诊断GPU

更新时间:
复制为 MD 格式

GPU实例在运行过程中可能会存在潜在的故障隐患或者安全风险,例如显卡故障、驱动程序错误等问题,ECS管理控制台支持配置GPU设备健康检查功能,方便您自行诊断当前实例的GPU卡或驱动是否存在异常,及时发现并解决潜在问题。

操作步骤

说明

操作前,请确认GPU实例处于运行中状态。

  1. 进入ECS控制台-自助问题排查,在页面左侧顶部,选择目标GPU实例所在地域。

  2. 单击常见问题场景 > GPU 设备检测下的发起诊断

  3. 创建诊断任务页面选择需要诊断的GPU实例和时间范围。单击发起诊断

  4. 诊断完成后,查看诊断报告,根据指引完成修复操作。

    诊断报告显示GPU 健康诊断结果:共 6 个检查项中,GPU 驱动状态检查为警告状态,提示该实例的 GPU 驱动未安装,导致实例无法正常使用 GPU 卡,建议参见安装 Tesla 驱动进行修复,其余 5 项(GPU 设备和驱动的状态检查、NVIDIA Xid 工具异常检查、GPU NVLink 状态检查、GPU 显存状态检查、Fabricmanager 组件异常检查)均诊断通过。