GPU实例在运行过程中可能会存在潜在的故障隐患或者安全风险,例如显卡故障、驱动程序错误等问题,ECS管理控制台支持配置GPU设备健康检查功能,方便您自行诊断当前实例的GPU卡或驱动是否存在异常,及时发现并解决潜在问题。
操作步骤
说明
操作前,请确认GPU实例处于运行中状态。
-
进入ECS控制台-自助问题排查,在页面左侧顶部,选择目标GPU实例所在地域。
-
单击下的发起诊断。
-
在创建诊断任务页面选择需要诊断的GPU实例和时间范围。单击发起诊断。
-
诊断完成后,查看诊断报告,根据指引完成修复操作。
诊断报告显示GPU 健康诊断结果:共 6 个检查项中,GPU 驱动状态检查为警告状态,提示该实例的 GPU 驱动未安装,导致实例无法正常使用 GPU 卡,建议参见安装 Tesla 驱动进行修复,其余 5 项(GPU 设备和驱动的状态检查、NVIDIA Xid 工具异常检查、GPU NVLink 状态检查、GPU 显存状态检查、Fabricmanager 组件异常检查)均诊断通过。
该文章对您有帮助吗?