GPU实例使用与运维FAQ-GPU云服务器-阿里云

为了有效排查和解决GPU云服务器的相关问题，本文为您汇总了使用GPU时遇到的一些常见问题。

类别	相关问题
GPU实例	GPU实例支持安卓模拟器吗？ GPU实例的配置支持变更吗？普通ECS实例规格族是否支持升级或变更为GPU实例规格族？如何在GPU实例和普通ECS实例间传输数据？ GPU与CPU有什么区别？
GPU显卡	购买GPU实例后，为什么执行nvidia-smi命令找不到GPU显卡？如何查看GPU显卡的详细信息？普通ECS实例可以增加GPU显卡吗？在Linux系统上使用GPU时出现GPU初始化失败（如RmInitAdapter failed!）问题。
GPU驱动	GPU虚拟化型实例需要安装什么驱动？在GPU计算型实例上使用OpenGL、Direct3D等工具做图形加速时，需要安装什么驱动？为什么创建GPU实例时选择的CUDA版本与安装完成后查看到的CUDA版本不一致？ GPU实例（Windows系统）安装GRID驱动后，通过控制台VNC远程连接该实例出现黑屏怎么办？如何获取GRID License? 如何升级GPU驱动（Tesla驱动或GRID驱动）？安装 NVIDIA 驱动版本 570.124.xx（Linux）或 572.61（Windows）后系统崩溃，出现kernel NULL pointer dereference错误
GPU监控	如何查看GPU实例的资源使用量（vCPU、网络流量、带宽以及磁盘等）？
其他	如何安装cGPU服务？

GPU实例支持安卓模拟器吗？

仅部分GPU实例支持安装安卓模拟器。

除GPU计算型弹性裸金属服务器实例规格族ebmgn7e、ebmgn7ex、ebmgn7i、ebmgn7、ebmgn6ia、ebmgn6e、ebmgn6v、ebmgn6i以及sccgn7ex支持安卓模拟器外，其他类型的GPU实例均不支持安卓模拟器。

GPU实例的配置支持变更吗？

仅部分GPU实例的配置支持变更。

详细的实例规格变配支持情况，请参见规格变更限制与自检。

普通ECS实例规格族是否支持升级或变更为GPU实例规格族？

普通ECS实例规格族不支持直接升级或变更为GPU实例规格族。

详细的实例规格变配支持情况，请参见规格变更限制与自检。

如果您的业务涉及AI推理相关内容，您可以购买弹性加速计算实例EAIS，通过该服务实现为ECS实例远程增加GPU显卡的效果。EAIS能够将CPU资源与GPU资源解耦，帮助您将GPU资源附加到ECS实例上，构建成您希望得到的GPU实例规格。关于弹性加速计算实例EAIS的更多信息，请参见什么是弹性加速计算实例EAIS。

如何在GPU实例和普通ECS实例间传输数据？

无需特别设置即可传输数据。

GPU实例除了GPU加速能力外，保留了与普通ECS实例一致的使用体验。同一安全组内的GPU实例和ECS实例之间默认内网互通，所以您无需特别设置。

GPU与CPU有什么区别？

GPU与CPU的对比如下表所示：

对比项	GPU	CPU
算术运算单元（ALU）	拥有大量擅长处理大规模并发计算的算术运算单元（ALU）。	拥有强大的算术运算单元（ALU），但数量较少。
逻辑控制单元	拥有相对简单的逻辑控制单元。	拥有复杂的逻辑控制单元。
缓存	拥有很少的缓存，且缓存用于服务线程，而不是用于保存访问的数据。	拥有大量的缓存结构，能够将数据保存至缓存，从而提高访问速度，降低时延。
响应方式	需要将全部任务整合后，再进行批处理。	实时响应，对单个任务的响应速度较高。
适用场景	适用于计算密集，相似度高，且多线程并行的高吞吐量运算场景。	适用于对响应速度有要求，且逻辑复杂的串行运算场景。

购买GPU实例后，为什么执行`nvidia-smi`命令找不到GPU显卡？

问题原因：当您执行nvidia-smi命令无法找到GPU显卡时，通常是由于您的GPU实例未安装或者未成功安装Tesla或GRID驱动。

解决措施：请根据您所购买的GPU实例规格选择对应的操作来安装相应驱动，才能正常使用GPU实例的高性能特性。具体说明如下：

GPU虚拟化型实例，请务必安装GRID驱动。具体操作，请参见：
- 在GPU虚拟化型实例中安装GRID驱动（Linux）
- 在GPU实例（计算型和虚拟化型）中安装GRID驱动（Windows）
GPU计算型实例，可以安装Tesla驱动或GRID驱动。具体操作，请参见：

如何查看GPU显卡的详细信息？

不同操作系统的GPU实例，查看GPU显卡信息的操作有所不同，具体说明如下：

针对Linux操作系统，您可以执行nvidia-smi命令查看GPU显卡的详细信息。
针对Windows操作系统，您可以在设备管理器 > 显示适配器中查看GPU显卡的详细信息。

说明

如果您需要了解GPU显卡的空闲率、使用率、温度以及功率等信息，可以前往云监控控制台查看。具体操作，请参见GPU监控。

普通ECS实例可以增加GPU显卡吗？

可以。

如果您的业务涉及AI推理相关内容，您需要购买弹性加速计算实例EAIS，该服务能够将CPU资源与GPU资源解耦，帮助您将GPU资源附加到ECS实例上，构建成您希望得到的GPU实例规格，从而实现为ECS实例远程增加GPU显卡。关于弹性加速计算实例EAIS的更多信息，请参见什么是弹性加速计算实例EAIS。

GPU虚拟化型实例需要安装什么驱动？

GPU虚拟化型实例需要安装GRID驱动。

针对通用计算场景或图形加速场景，您可以在创建GPU实例时同步加载GRID驱动，也可以在创建GPU实例后通过云助手方式安装GRID驱动，安装方式如下：

创建新实例时，同步加载GRID驱动。具体操作，请参见通过预装驱动的镜像加载GRID驱动。
创建实例后，通过云助手安装GRID驱动。具体操作，请参见：
- 在GPU虚拟化型实例中安装GRID驱动（Linux）
- 在GPU实例（计算型和虚拟化型）中安装GRID驱动（Windows）

GPU虚拟化型实例是否支持将CUDA升级到12.4或将NVIDIA驱动升级到550以上？

不支持。

虚拟化GPU实例依赖于平台提供的GRID驱动，其版本更新受限，无法随意安装NVIDIA官网驱动。如需升级，可使用gn/ebm系列GPU实例。

在GPU计算型实例上使用OpenGL、Direct3D等工具做图形加速时，需要安装什么驱动？

请根据您所使用的GPU实例的操作系统来安装相应驱动。具体说明如下：

针对Linux操作系统的GPU计算型实例，请安装Tesla驱动。具体操作，请参见：
- 创建GPU实例时自动安装或加载Tesla驱动
- 在GPU计算型实例中手动安装Tesla驱动（Linux）
针对Windows操作系统的GPU计算型实例，请安装GRID驱动。具体操作，请参见：
- 通过预装驱动的镜像加载GRID驱动
- 在GPU实例（计算型和虚拟化型）中安装GRID驱动（Windows）

为什么创建GPU实例时选择的CUDA版本与安装完成后查看到的CUDA版本不一致？

您执行命令nvidia-smi查询到的CUDA版本代表您的GPU实例能够支持的最高CUDA版本，并不代表您创建GPU实例时选择的CUDA版本。

GPU实例（Windows系统）安装GRID驱动后，通过控制台VNC远程连接该实例出现黑屏怎么办？

问题原因：当Windows操作系统的GPU实例安装了GRID驱动后，虚拟机（VM）的显示输出被GRID驱动接管，VNC无法再获取到集成显卡的画面，因此，VNC显示会变成黑屏状态，属于正常现象。
解决方案：使用Workbench连接GPU实例。具体操作，请参见使用Workbench登录Windows实例。

如何获取GRID License?

请根据您使用的操作系统查看对应的获取方式，具体说明如下：

针对在Windows操作系统的GPU实例上安装GRID驱动，请通过预装驱动镜像方式或者手动方式获取。
- 通过预装驱动的镜像加载GRID驱动
- 在GPU实例（计算型和虚拟化型）中安装GRID驱动（Windows）
针对在Linux操作系统的GPU实例上安装GRID驱动，请通过预装驱动镜像方式或者云助手方式获取。
- 通过预装驱动的镜像加载GRID驱动
- 在GPU虚拟化型实例中安装GRID驱动（Linux）

如何升级GPU驱动（Tesla驱动或GRID驱动）？

GPU驱动（Tesla驱动或GRID驱动）不能直接升级版本，需要先卸载之前的旧版本驱动，然后重启系统来安装新版本驱动，具体操作，请参见升级Tesla或GRID驱动。

重要

建议您在业务低峰期升级驱动，升级前请先创建快照备份云盘数据，避免数据丢失，具体操作，请参见手动创建单个快照。

安装 NVIDIA 驱动版本 570.124.xx（Linux）或 572.61（Windows）后系统崩溃，出现`kernel NULL pointer dereference`错误

问题现象：在部分实例规格中，安装570.124.xx（Linux）/572.61（Windows）版本NVIDIA驱动或安装后执行nvidia-smi命令时，系统报错kernel NULL pointer dereference。日志如下所示：

错误日志

[  305.164082] BUG: kernel NULL pointer dereference, address: 00000000000000c4
[  305.164303] #PF: supervisor read access in kernel mode
[  305.164447] #PF: error_code(0x0000) - not-present page
[  305.164626] PGD 0 P4D 0
[  305.164724] Oops: 0000 [#1] SMP NOPTI
[  305.164852] CPU: 29 PID: 23659 Comm: nv_open_q Kdump: loaded Tainted: G           OE     5.10.134-19.1.al8.x86_64 #1
[  305.165241] Hardware name: Alibaba Cloud Alibaba Cloud ECS, BIOS 2.0.0 04/23/2024
[  305.165450] RIP: 0010:pci_read_config_dword+0x5/0x40
[  305.165630] Code: 44 89 c6 e9 5d fc ff ff b8 ff ff ff ff 66 89 02 b8 86 00 00 00 c3 cc cc cc cc 66 66 2e 0f 1f 84 00 00 00 00 00 0f 1f 44 00 00 <83> bf c4 00 00 00 03 48 89 d1 74 12 44 8b 47 38 48 8b 7f 10 89 f2
[  305.166323] RSP: 0018:ffffbc6ac0f1b9f0 EFLAGS: 00010293
[  305.166469] RAX: 0000000000000000 RBX: ffff9e9ba33e0020 RCX: 0000000000000002
[  305.166724] RDX: ffffbc6ac0f1ba0c RSI: 0000000000000000 RDI: 0000000000000000
[  305.166977] RBP: ffffbc6ac0f1ba10 R08: 0000000000000000 R09: 0000000000000000
[  305.167243] R10: 00000000000922f8 R11: ffffffffac163048 R12: 0000000000000000
[  305.167506] R13: 0000000000000001 R14: 0000000000000004 R15: 0000000000000000
[  305.167766] FS:  0000000000000000(0000) GS:ffff9ef785480000(0000) knlGS:0000000000000000
[  305.168060] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
[  305.168270] CR2: 00000000000000c4 CR3: 0000004130a12003 CR4: 0000000002770ee0
[  305.168531] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
[  305.168793] DR3: 0000000000000000 DR6: 00000000fffe07f0 DR7: 0000000000000400
[  305.169052] PKRU: 55555554
[  305.169157] Call Trace:
[  305.169252]  ? __die+0x20/0x70
[  305.169372]  ? no_context+0x5f/0x260
[  305.169504]  ? exc_page_fault+0x68/0x130
[  305.169651]  ? asm_exc_page_fault+0x1e/0x30
[  305.169815]  ? pci_read_config_dword+0x5/0x40
[  305.170080]  os_pci_read_dword+0x12/0x30 [nvidia]
[  305.170357]  ? osPciReadDword+0x15/0x20 [nvidia]
[  305.170637]  gpuReadPcieConfigCycle_GB202+0x66/0xd0 [nvidia]
[  305.170962]  kbifSavePcieConfigRegistersFn1_GB202+0x65/0xc0 [nvidia]
[  305.171297]  kbifSavePcieConfigRegisters_GH100+0xd2/0x1e0 [nvidia]
[  305.171619]  kbifStateLoad_IMPL+0xa1/0xe0 [nvidia]
[  305.171893]  gpuStateLoad_IMPL+0x267/0xd60 [nvidia]
[  305.172129]  ? _rmGpuLocksAcquire.constprop.0+0x352/0xbf0 [nvidia]
[  305.172375]  ? portSyncSpinlockAcquire+0x1d/0x50 [nvidia]
[  305.172585]  ? _tlsThreadEntryGet+0x82/0x90 [nvidia]
[  305.172780]  ? tlsEntryGet+0x31/0x80 [nvidia]
[  305.172979]  gpumgrStateLoadGpu+0x5b/0x70 [nvidia]
[  305.173209]  RmInitAdapter+0xf08/0x1c00 [nvidia]
[  305.173433]  ? os_get_current_tick+0x28/0x70 [nvidia]
[  305.173671]  rm_init_adapter+0xad/0xc0 [nvidia]
[  305.173845]  nv_start_device+0x2a9/0x6f0 [nvidia]
[  305.174328]  ? nv_open_device+0x9b/0x220 [nvidia]
[  305.174791]  ? nvidia_open_deferred+0x3c/0x100 [nvidia]
[  305.175248]  ? nvidia_modeset_resume+0x20/0x20 [nvidia]
[  305.175705]  ? _main_loop+0x9e/0x160 [nvidia]
[  305.176128]  ? nvidia_modeset_resume+0x20/0x20 [nvidia]
[  305.176527]  ? kthread+0x118/0x140
[  305.176869]  ? __kthread_bind_mask+0x60/0x60
[  305.177230]  ? ret_from_fork+0x1f/0x30
[  305.177575] Modules linked in: nvidia_drm(OE) nvidia_modeset(OE) nvidia(OE) ecc rfkill intel_rapl_msr intel_rapl_common intel_uncore_frequency_common isst_if_common skx_edac_common nfit intel_powerclamp crct10dif_pclmul crc32_pclmul ghash_clmulni_intel rapl snd_intel8x0 snd_ac97_codec ac97_bus snd_pcm erdma snd_timer ib_uverbs snd soundcore ib_core virtio_balloon pcspkr i2c_piix4 sunrpc vfat fat cirrus drm_kms_helper syscopyarea sysfillrect sysimgblt fb_sys_fops drm nvme libcrc32c virtio_net crc32c_intel net_failover nvme_core serio_raw i2c_core failover virtio_console t10_pi floppy [last unloaded: ecc]
[  305.180787] CR2: 00000000000000c4
[  305.181132] ---[ end trace 85d65b7e0a10dcf8 ]---
[  305.181512] RIP: 0010:pci_read_config_dword+0x5/0x40
[  305.181903] Code: 44 89 c6 e9 5d fc ff ff b8 ff ff ff ff 66 89 02 b8 86 00 00 00 c3 cc cc cc cc 66 66 2e 0f 1f 84 00 00 00 00 00 0f 1f 44 00 00 <83> bf c4 00 00 00 03 48 89 d1 74 12 44 8b 47 38 48 8b 7f 10 89 f2
[  305.183045] RSP: 0018:ffffbc6ac0f1b9f0 EFLAGS: 00010293
[  305.183463] RAX: 0000000000000000 RBX: ffff9e9ba33e0020 RCX: 0000000000000002
[  305.183955] RDX: ffffbc6ac0f1ba0c RSI: 0000000000000000 RDI: 0000000000000000
[  305.184443] RBP: ffffbc6ac0f1ba10 R08: 0000000000000000 R09: 0000000000000000
[  305.184931] R10: 00000000000922f8 R11: ffffffffac163048 R12: 0000000000000000
[  305.185415] R13: 0000000000000001 R14: 0000000000000004 R15: 0000000000000000
[  305.185913] FS:  0000000000000000(0000) GS:ffff9ef785480000(0000) knlGS:0000000000000000
[  305.186426] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
[  305.186870] CR2: 00000000000000c4 CR3: 0000004130a12003 CR4: 0000000002770ee0
[  305.187363] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
[  305.187866] DR3: 0000000000000000 DR6: 00000000fffe07f0 DR7: 0000000000000400
[  305.188361] PKRU: 55555554
[  305.188719] Kernel panic - not syncing: Fatal exception
[  305.190378] Kernel Offset: 0x29000000 from 0xffffffff81000000 (relocation range: 0xffffffff80000000-0xffffffffbfffffff)

解决方案：请避免使用570.124.xx（Linux）/572.61（Windows）版本驱动，推荐使用570.133.20（Linux）/572.83（Windows）或更高版本。

如何查看GPU实例的资源使用量（vCPU、网络流量、带宽以及磁盘等）？

如需查看实例的vCPU使用率、内存、系统平均负载、内网带宽、公网带宽、网络连接数、磁盘使用与读取、GPU使用率，显存使用量、GPU功率等监控数据，请通过以下方法查询。

云产品控制台
- 云服务器ECS控制台：提供vCPU使用率、网络流量、磁盘I/O以及GPU监控等指标信息。具体操作，请参见通过ECS控制台查看监控信息。
- 云监控控制台：提供更加精细化的监控粒度，例如查看基础监控、操作系统监控、GPU监控、网络监控、进程监控以及云盘监控等指标信息，更多信息，请参见主机监控。
费用与成本中心
在查看用量明细页面，通过筛选以下字段（以查看ECS实例的流量使用情况为例），即包括待查询的时间周期、商品名称（云产品名称）、计费项名称，计量规格以及计量粒度字段，单击导出CSV，导出实例的相关资源使用量信息。具体操作，请参见账单详情。
说明
用量明细所提供的数据为资源的原始用量，与账单明细所提供的参与计费的用量数据不一致，查询结果仅供参考，不作为对账依据。

如何安装cGPU服务？

无论您是企业认证用户还是个人实名认证用户，推荐您通过ACK的Docker运行时环境安装和使用cGPU服务。具体操作，请参见管理共享GPU调度组件。

安装驱动时kernel module types选择NVIDIA Proprietary，执行nvidia-smi命令报错No devices were found

问题现象：在部分实例规格中，安装驱动时kernel module types选择NVIDIA Proprietary，安装完成后执行nvidia-smi命令报错No devices were found（找不到GPU设备）。
问题原因：不是所有的GPU型号都兼容NVIDIA Proprietary驱动。
kernel module types配置建议：
- 对于Blackwell架构GPU：必须使用开源驱动（选择MIT/GPL）。
- 对于Turing、Ampere、Ada Lovelace、Hopper架构GPU：推荐使用开源驱动（选择 MIT/GPL）。
- 对于Maxwell、Pascal、Volta架构GPU：仅支持选择NVIDIA Proprietary。

在Linux系统上使用GPU时出现GPU初始化失败（如RmInitAdapter failed!）问题。

问题现象：使用GPU实例时出现GPU设备离线，系统无法识别显卡设备。例如在Linux系统上使用GPU时，出现GPU卡初始化失败的错误提示。执行sh nvidia-bug-report.sh命令后，在生成的日志中，看到RmInitAdapter failed错误信息，如下图所示：
问题原因：可能是GPU的GSP（GPU System Processor）组件运行状态异常，导致触发设备离线，系统无法识别显卡设备。
解决方案：通过控制台重启实例，可完成一次彻底的GPU reset，通常可解决此问题。如果问题仍然存在，请参考使用GPU时出现XID 119/XID 120错误导致GPU掉卡进一步处理，建议关闭GSP功能。