文档

GPU云服务器常见问题

更新时间:

为了有效排查和解决GPU云服务器的相关问题,本文为您汇总了使用GPU时遇到的一些常见问题。

类别

相关问题

功能问题

操作问题

为什么Windows操作系统不支持DirectX等功能?

由于Windows自带的远程连接(RDP)协议本身并不支持DirectX、OpenGL等相关应用。因此,您需要自行安装TightVNC服务和客户端,或其他支持PCOIP、XenDesktop HDX 3D等协议的远程连接客户端。

GPU实例支持安卓模拟器吗?

仅GPU计算型弹性裸金属服务器实例规格族ebmgn7e、ebmgn7ex、ebmgn7i、ebmgn7、ebmgn6ia、ebmgn6e、ebmgn6v、ebmgn6i以及sccgn7ex支持安卓模拟器,其他类型的GPU实例不支持安卓模拟器。

我能变更GPU实例的配置吗?

除以下GPU实例规格族不支持变配外,其他GPU实例规格族均支持本规格族内的变配操作。

  • 带本地存储的GPU实例:gn5

  • GPU虚拟化型实例:vgn5i

详细的实例规格变配支持情况,请参见支持变配的实例规格

按量付费GPU实例支持节省停机模式吗?

带本地存储的GPU实例规格族不支持按量付费实例节省停机模式,例如gn5。更多节省停机模式的说明,请参见按量付费实例节省停机模式

GPU与CPU有什么区别?

GPU与CPU的对比如下表所示:

对比项

GPU

CPU

算术运算单元(ALU)

拥有大量擅长处理大规模并发计算的算术运算单元(ALU)。

拥有强大的算术运算单元(ALU),但数量较少。

逻辑控制单元

拥有相对简单的逻辑控制单元。

拥有复杂的逻辑控制单元。

缓存

拥有很少的缓存,且缓存用于服务线程,而不是用于保存访问的数据。

拥有大量的缓存结构,能够将数据保存至缓存,从而提高访问速度,降低时延。

响应方式

需要将全部任务整合后,再进行批处理。

实时响应,对单个任务的响应速度较高。

适用场景

适用于计算密集,相似度高,且多线程并行的高吞吐量运算场景。

适用于对响应速度有要求,且逻辑复杂的串行运算场景。

普通ECS实例规格族是否支持升级或变更为GPU实例规格族?

普通ECS实例规格族不支持直接升级或变更为GPU实例规格族。

如果您的业务涉及AI推理相关内容,您可以购买弹性加速计算实例EAIS,通过该服务实现为ECS实例远程增加GPU显卡的效果。EAIS能够将CPU资源与GPU资源解耦,帮助您将GPU资源附加到ECS实例上,构建成您希望得到的GPU实例规格。弹性加速计算实例EAIS的更多信息,请参见什么是弹性加速计算实例EAIS

详细的实例规格变配支持情况,请参见支持变配的实例规格

为什么购买GPU实例后,执行命令nvidia-smi找不到GPU显卡?

当您执行命令nvidia-smi无法找到GPU显卡时,通常是由于您的GPU实例未安装或者未成功安装NVIDIA驱动。请根据您所购买的GPU实例规格选择对应的操作指引来安装驱动,具体说明如下:

更多驱动安装场景及操作指引,请参见Tesla或GRID驱动安装指引

普通ECS实例可以增加GPU显卡吗?

如果您的业务涉及AI推理相关内容,您需要购买弹性加速计算实例EAIS,该服务能够将CPU资源与GPU资源解耦,帮助您将GPU资源附加到ECS实例上,构建成您希望得到的GPU实例规格,从而实现为ECS实例远程增加GPU显卡。弹性加速计算实例EAIS的更多信息,请参见什么是弹性加速计算实例EAIS

GPU虚拟化型实例需要安装什么驱动?

GPU虚拟化实例(vgn6i、vgn5i)配备了分片虚拟化后的虚拟GPU,因此仅支持安装GRID驱动。根据您使用的操作系统,安装GRID驱动的说明如下:

为什么创建GPU实例时选择的CUDA版本与安装完成后查看到的CUDA版本不一致?

您执行命令nvidia-smi查询到的CUDA版本代表您的GPU实例能够支持的最高CUDA版本,并不代表您创建GPU实例时选择的CUDA版本。

在GPU计算型实例上使用OpenGL、Direct3D等工具做图形计算时,需要安装什么驱动?

请根据您使用的GPU实例的操作系统安装对应的驱动,具体说明如下所示:

如何查看GPU监控数据?

您可以通过云监控控制台DescribeMetricList查看GPU监控数据,更多信息,请参见GPU监控

如何在GPU实例和普通ECS实例间传输数据?

GPU实例除了GPU加速能力外,保留了与普通ECS实例一致的使用体验。同一安全组内的GPU实例和ECS实例之间默认内网互通,无需特别设置。

Windows操作系统的GPU实例安装GRID驱动后,通过控制台VNC远程连接实例出现黑屏怎么办?

原因:当Windows操作系统的GPU实例安装了GRID驱动后,VM的显示输出被GRID驱动接管,VNC无法再获取到集成显卡的画面,因此,VNC显示会变成黑屏状态,属于正常现象。

解决办法:使用Workbench连接GPU实例。具体操作,请参见通过密码或密钥认证登录Windows实例

如何查询GPU显卡的详细信息?

不同操作系统的GPU实例,查看GPU显卡信息的操作有所区别,具体说明如下:

  • 如果您的GPU实例安装了Linux操作系统,您可以执行命令nvidia-smi,查询GPU显卡的详细信息。

  • 如果您的GPU实例安装Windows操作系统,您可以在设备管理器中查看GPU显卡的详细信息。

如果您需要了解GPU显卡的空闲率、使用率、温度以及功率等信息,可以前往云监控控制台查看。具体操作,请参见GPU监控

如何获取GRID License?

请根据您使用的操作系统查看对应的获取方式,具体说明如下所示:

如何安装cGPU服务?

无论您是企业认证用户还是个人实名认证用户,推荐您通过ACK的共享GPU组件使用cGPU服务。具体操作,请参见安装共享GPU调度组件

更换操作系统时,如何取消自动安装GPU驱动?

在创建GPU实例时,如果选择了安装GPU驱动选项,则创建实例后会自动安装GPU驱动。如果您需要更换该实例的操作系统,并且需要同时取消自动安装GPU驱动的功能,请参考以下操作步骤:

说明

关于在创建GPU实例时自动安装GPU驱动的更多信息,请参见创建配备GPU驱动的GPU实例(Linux)

  1. 停止GPU实例。

    具体操作,请参见停止实例

  2. 在实例列表中,找到已停止的GPU实例,在对应操作列,选择icon1 > 实例设置 > 设置用户数据

  3. 用户数据:区域,删除用户数据内容,然后单击确定

  4. 更换GPU实例的操作系统。

    更换操作系统的本质是更换系统盘,您可以通过更换实例的镜像来更换操作系统。具体操作,请参见更换操作系统(系统盘)

使用GPU时出现Xid 119/Xid 120错误导致GPU掉卡怎么办?

  • 问题现象

    使用GPU时出现GPU掉卡现象,例如在Linux系统上使用GPU时,出现GPU卡启动失败的错误提示。执行sh nvidia-bug-report.sh命令后,在生成的日志中,可以看到Xid 119或Xid 120错误信息。以Xid 119报错页面为例,显示如下:

    报错信息.png

    说明

    关于其他Xid Error的更多信息,请参考NVIDIA Common XID Errors

  • 可能原因

    引起上述问题的原因可能是GPU的GSP(GPU System Processor)组件运行状态异常。目前,NVIDIA并未提供某个驱动版本来彻底解决GPU的掉卡问题,因此建议您关闭GSP功能后再使用GPU卡。

    说明

    如果您想了解更多关于GSP功能的影响详情,请参见开启或关闭GSP功能的影响

  • 解决方案

    1. 登录GPU实例。

      具体操作,请参见通过密码或密钥认证登录Linux实例

    2. 执行以下命令,关闭GPU的GSP组件。

      echo options nvidia NVreg_EnableGpuFirmware=0 > /etc/modprobe.d/nvidia-gsp.conf
    3. 重启GPU实例。

      具体操作,请参见重启实例

    4. 再次登录GPU实例。

    5. 执行以下命令,查看EnableGpuFirmware参数值。

      cat /proc/driver/nvidia/params | grep EnableGpuFirmware:
      • 如果返回结果是EnableGpuFirmware:0,则表示GPU的GSP组件关闭,问题已修复。

        重要

        只要EnableGpuFirmware:0,则执行nvidia-smi检查GPU卡状态时,其返回结果肯定是正常的。

      • 如果返回结果不是EnableGpuFirmware:0,则表示GSP组件没有关闭,请继续执行下一步。

    6. 执行以下命令,确认NVIDIA GPU卡是否正常。

      nvidia-smi

      如果返回结果异常,表示NVIDIA GPU卡仍然存在问题,请联系阿里云运维技术人员进行关机迁移操作。

在Linux系统GPU实例中使用PyTorch时,出现报错“undefined symbol: __nvJitLinkAddData_12_1, version libnvJitLink.so.12”怎么办?

  • 问题现象

    在Linux系统GPU实例中使用PyTorch时,出现如下报错信息:

    >>> import torch
    Traceback (most recent call last):
      File "<stdin>", line 1, in <module>
      File "/usr/local/lib/python3.8/dist-packages/torch/__init__.py", line 235, in <module>
        from torch._C import *  # noqa: F403
    ImportError: /usr/local/lib/python3.8/dist-packages/torch/lib/../../nvidia/cusparse/lib/libcusparse.so.12: undefined symbol: __nvJitLinkAddData_12_1, version libnvJitLink.so.12
  • 可能原因

    可能是GPU实例所安装的CUDA版本与PyTorch版本不兼容导致,两者匹配详情请参见CUDA与PyTorch版本匹配关系

    通过pip install torch安装的PyTorch版本为2.1.2,要求的CUDA版本为12.1。而购买GPU实例自动安装的CUDA版本为12.0,与PyTorch要求的CUDA版本不匹配。

  • 解决方案

    如果购买GPU实例时,在镜像区域的公共镜像页签下选中了安装GPU驱动选项,则您可以按以下三种方案升级CUDA版本至CUDA 12.1。

    • 方案一:手动安装CUDA

      手动安装版本为12.1的CUDA。具体操作,请参见官方教程

    • 方案二:通过自定义脚本方式安装CUDA

      1. 释放现有GPU实例。

        具体操作,请参见释放实例

      2. 购买新的GPU实例。

        具体操作,请参见创建GPU实例。主要配置参数说明如下:

        • 镜像区域的公共镜像页签下,未选中安装GPU驱动选项。

        • 高级选项(选填)的自定义数据区域内,输入自定义脚本来安装NVIDIA Tesla 535.129.03驱动和CUDA 12.1.1。脚本示例如下:

          自定义脚本示例

          #!/bin/sh
          
          #Please input version to install
          DRIVER_VERSION="535.129.03"
          CUDA_VERSION="12.1.1"
          CUDNN_VERSION="8.9.7.29"
          IS_INSTALL_eRDMA="FALSE"
          IS_INSTALL_RDMA="FALSE"
          IS_INSTALL_AIACC_TRAIN="FALSE"
          IS_INSTALL_AIACC_INFERENCE="FALSE"
          IS_INSTALL_RAPIDS="FALSE"
          INSTALL_DIR="/root/auto_install"
          
          #using .run to install driver and cuda
          auto_install_script="auto_install.sh"
          
          script_download_url=$(curl http://100.100.100.200/latest/meta-data/source-address | head -1)"/opsx/ecs/linux/binary/script/${auto_install_script}"
          echo $script_download_url
          
          rm -rf $INSTALL_DIR
          mkdir -p $INSTALL_DIR
          cd $INSTALL_DIR
          wget -t 10 --timeout=10 $script_download_url && bash ${INSTALL_DIR}/${auto_install_script} $DRIVER_VERSION $CUDA_VERSION $CUDNN_VERSION $IS_INSTALL_AIACC_TRAIN $IS_INSTALL_AIACC_INFERENCE $IS_INSTALL_RDMA $IS_INSTALL_eRDMA $IS_INSTALL_RAPIDS
    • 方案三:修改自定义脚本并更换操作系统

      1. 停止现有GPU实例。

        具体操作,请参见停止实例

      2. 在实例列表中,找到已停止的GPU实例,在对应的操作列,选择实例设置 > 设置用户数据

      3. 修改用户数据,并单击确定

        DRIVER_VERIONCUDA_VERSIONCUDNN_VERSION参数修改为如下版本:

        ...
        DRIVER_VERSION="535.129.03"
        CUDA_VERSION="12.1.1"
        CUDNN_VERSION="8.9.7.29"
        ...

        修改数据.jpg

      4. 更换GPU实例的操作系统。

        具体操作,请参见更换操作系统(系统盘)

        待GPU实例启动成功后,系统会重新安装新版本的NVIDIA Tesla驱动、CUDA以及cuDNN。

  • 本页导读 (1)
文档反馈