文档

GPU云服务器常见问题

为了有效排查和解决GPU云服务器的相关问题,本文为您汇总了使用GPU时遇到的一些常见问题。

类别

相关问题

GPU实例

GPU显卡

Tesla驱动或GRID驱动

GPU监控

如何查看GPU监控数据?

其他

如何安装cGPU服务?

GPU实例支持安卓模拟器吗?

仅部分GPU实例支持安装安卓模拟器。

除GPU计算型弹性裸金属服务器实例规格族ebmgn7e、ebmgn7ex、ebmgn7i、ebmgn7、ebmgn6ia、ebmgn6e、ebmgn6v、ebmgn6i以及sccgn7ex支持安卓模拟器外,其他类型的GPU实例均不支持安卓模拟器。

GPU实例的配置支持变更吗?

仅部分GPU实例的配置支持变更。

详细的实例规格变配支持情况,请参见支持变配的实例规格

普通ECS实例规格族是否支持升级或变更为GPU实例规格族?

普通ECS实例规格族不支持直接升级或变更为GPU实例规格族。

详细的实例规格变配支持情况,请参见支持变配的实例规格

如果您的业务涉及AI推理相关内容,您可以购买弹性加速计算实例EAIS,通过该服务实现为ECS实例远程增加GPU显卡的效果。EAIS能够将CPU资源与GPU资源解耦,帮助您将GPU资源附加到ECS实例上,构建成您希望得到的GPU实例规格。关于弹性加速计算实例EAIS的更多信息,请参见什么是弹性加速计算实例EAIS

如何在GPU实例和普通ECS实例间传输数据?

无需特别设置即可传输数据。

GPU实例除了GPU加速能力外,保留了与普通ECS实例一致的使用体验。同一安全组内的GPU实例和ECS实例之间默认内网互通,所以您无需特别设置。

GPU与CPU有什么区别?

GPU与CPU的对比如下表所示:

对比项

GPU

CPU

算术运算单元(ALU)

拥有大量擅长处理大规模并发计算的算术运算单元(ALU)。

拥有强大的算术运算单元(ALU),但数量较少。

逻辑控制单元

拥有相对简单的逻辑控制单元。

拥有复杂的逻辑控制单元。

缓存

拥有很少的缓存,且缓存用于服务线程,而不是用于保存访问的数据。

拥有大量的缓存结构,能够将数据保存至缓存,从而提高访问速度,降低时延。

响应方式

需要将全部任务整合后,再进行批处理。

实时响应,对单个任务的响应速度较高。

适用场景

适用于计算密集,相似度高,且多线程并行的高吞吐量运算场景。

适用于对响应速度有要求,且逻辑复杂的串行运算场景。

购买GPU实例后,为什么执行nvidia-smi命令找不到GPU显卡?

问题原因:当您执行nvidia-smi命令无法找到GPU显卡时,通常是由于您的GPU实例未安装或者未成功安装Tesla或GRID驱动。

解决措施:请根据您所购买的GPU实例规格选择对应的操作来安装相应驱动,才能正常使用GPU实例的高性能特性。具体说明如下:

如何查看GPU显卡的详细信息?

不同操作系统的GPU实例,查看GPU显卡信息的操作有所不同,具体说明如下:

  • 针对Linux操作系统,您可以执行nvidia-smi命令查看GPU显卡的详细信息。

  • 针对Windows操作系统,您可以在设备管理器 > 显示适配器中查看GPU显卡的详细信息。

说明

如果您需要了解GPU显卡的空闲率、使用率、温度以及功率等信息,可以前往云监控控制台查看。具体操作,请参见GPU监控

普通ECS实例可以增加GPU显卡吗?

可以。

如果您的业务涉及AI推理相关内容,您需要购买弹性加速计算实例EAIS,该服务能够将CPU资源与GPU资源解耦,帮助您将GPU资源附加到ECS实例上,构建成您希望得到的GPU实例规格,从而实现为ECS实例远程增加GPU显卡。关于弹性加速计算实例EAIS的更多信息,请参见什么是弹性加速计算实例EAIS

GPU虚拟化型实例需要安装什么驱动?

GPU虚拟化型实例需要安装GRID驱动。

针对通用计算场景或图形加速场景,您可以在创建GPU实例时同步加载GRID驱动,也可以在创建GPU实例后通过云助手方式安装GRID驱动,安装方式如下:

在GPU计算型实例上使用OpenGL、Direct3D等工具做图形加速时,需要安装什么驱动?

请根据您所使用的GPU实例的操作系统来安装相应驱动。具体说明如下:

为什么创建GPU实例时选择的CUDA版本与安装完成后查看到的CUDA版本不一致?

您执行命令nvidia-smi查询到的CUDA版本代表您的GPU实例能够支持的最高CUDA版本,并不代表您创建GPU实例时选择的CUDA版本。

GPU实例(Windows系统)安装GRID驱动后,通过控制台VNC远程连接该实例出现黑屏怎么办?

  • 问题原因:当Windows操作系统的GPU实例安装了GRID驱动后,虚拟机(VM)的显示输出被GRID驱动接管,VNC无法再获取到集成显卡的画面,因此,VNC显示会变成黑屏状态,属于正常现象。

  • 解决方案:使用Workbench连接GPU实例。具体操作,请参见通过密码或密钥认证登录Windows实例

如何获取GRID License?

请根据您使用的操作系统查看对应的获取方式,具体说明如下:

如何查看GPU监控数据?

您可以通过云监控控制台或API接口DescribeMetricList查看GPU监控数据,更多信息,请参见GPU监控

如何安装cGPU服务?

无论您是企业认证用户还是个人实名认证用户,推荐您通过ACK的Docker运行时环境安装和使用cGPU服务。具体操作,请参见安装共享GPU调度组件