本文介绍如何收集GPU节点的问题诊断信息。

Pod问题

当某个申请GPU资源的Pod在某个GPU节点上运行失败,您可以执行以下操作:

  1. 执行以下命令,查看Pod运行的GPU节点。
    本文以test-namespace命名空间中名为test-pod的GPU Pod为例进行说明。
    kubectl get pod test-pod -n test-namespace -o wide
  2. 登录到该GPU节点上,执行以下命令,下载并执行诊断脚本。
    sudo curl https://aliacs-k8s-cn-beijing.oss-cn-beijing.aliyuncs.com/diagnose/diagnose-gpu.sh | bash -s -- --pod test-pod
    预期输出:
    Please upload diagnose-gpu_xx-xx-xx_xx-xx-xx.tar.gz to ACK developers
  3. 提交工单,将当前目录下的diagnose-gpu_xx-xx-xx_xx-xx-xx.tar.gzdiagnose-gpu.log交给阿里云ACK技术支持进行问题诊断。

GPU节点问题

如果不属于Pod运行失败的情况,例如GPU节点运行失败或者其他GPU节点环境问题,您可以执行以下操作:

  1. 登录到该GPU节点上,执行以下命令,下载并执行诊断脚本。
    sudo curl https://aliacs-k8s-cn-beijing.oss-cn-beijing.aliyuncs.com/diagnose/diagnose-gpu.sh | bash
    预期输出:
    Please upload diagnose-gpu_xx-xx-xx_xx-xx-xx.tar.gz to ACK developers
  2. 提交工单,将当前目录下的diagnose-gpu_xx-xx-xx_xx-xx-xx.tar.gz交给阿里云ACK技术支持进行问题诊断。