针对通用计算场景或图形加速场景,您可以在创建GPU实例时自动安装或加载Tesla驱动,也可以在创建GPU实例后手动安装Tesla驱动,配备了驱动的GPU实例才能提供更好的计算性能和图形渲染能力。本文介绍如何在创建GPU实例时自动安装或加载Tesla驱动。
驱动安装方式
选择不同安装方式自动安装或加载Tesla驱动来满足通用计算场景或图形加速场景的性能需求。
| 安装方式 | 说明 | 相关链接 | 
| 公共镜像方式 | 创建GPU实例时,您选择了公共镜像并同时选中安装GPU驱动选项。 | |
| 云市场镜像方式 | 创建GPU实例时,您选择了预装NVIDIA Tesla驱动的云市场镜像。 | |
| 自动安装脚本方式 | 创建GPU实例时,在镜像区域未选中安装GPU驱动选项,但在自定义数据区域输入自动安装脚本来安装NVIDIA Tesla驱动。 | 
通过公共镜像自动安装驱动
特定的Linux操作系统公共镜像支持选择安装GPU驱动选项,如果选择公共镜像后同时选中安装GPU驱动选项,则创建GPU实例后会自动安装Tesla驱动。
- 前往实例创建页。 
- 选择自定义购买页签。 
- 按需选择付费类型、地域、网络及可用区、实例规格、镜像等配置。 - 除实例规格和镜像外,如需了解其他配置项的详情,请参见配置项说明。支持创建GPU实例时同步安装Tesla驱动的实例、镜像及驱动版本对应关系如下: 说明- NVIDIA Tesla驱动用于驱动物理GPU,配合CUDA、cuDNN库可以高效地使用GPU,安装NVIDIA Tesla驱动会同时安装CUDA和cuDNN库。如果您的业务属于新的业务系统,建议选择最新版本的Tesla驱动、CUDA、cuDNN库。 - 支持的实例规格 - 支持的公共镜像版本 - NVIDIA Tesla驱动版本 - CUDA版本 - cuDNN版本 - gn7e、gn7s、gn7i、gn6v、gn6i、gn6e、gn5、gn5i 
- ebmgn7e、ebmgn7i、ebmgn6v、ebmgn6i、ebmgn6e 
- ebmgn7ix、ebmgn7ex 
- gn8is、ebmgn8is、gn8v、ebmgn8v 
 - Alibaba Cloud Linux3 
- Ubuntu 24.04、22.04、20.04 
- Centos 8.x 
 说明- ebmgn8v、ebmgn7e和ebmgn7ex不支持选择Ubuntu 20.04版本的镜像。 - 570.133.20 - 12.8.1 - 9.8.0.87 - gn7e、gn7s、gn7i、gn6v、gn6i、gn6e、gn5、gn5i 
- ebmgn7e、ebmgn7i、ebmgn6v、ebmgn6i、ebmgn6e 
- ebmgn7ix、ebmgn7ex 
- gn8is、ebmgn8is、gn8v、ebmgn8v 
 - Alibaba Cloud Linux 2、Linux3 
- Ubuntu 22.04、20.04、18.04 
- Centos 8.x、7.x 
 说明- ebmgn8v、ebmgn7e和ebmgn7ex不支持选择Ubuntu 18.04版本的镜像。 - 550.127.08 - 12.4.1 - 9.2.0.82 - gn7e、gn7s、gn7i、gn6v、gn6i、gn6e、gn5、gn5i 
- ebmgn7e、ebmgn7i、ebmgn6v、ebmgn6i、ebmgn6e 
- ebmgn7ix、ebmgn7ex 
- gn8is、ebmgn8is 
 - Alibaba Cloud Linux 2、Alibaba Cloud Linux 3 
- Ubuntu 20.04、18.04 
- CentOS 8.x、7.x 
 说明- ebmgn7e和ebmgn7ex不支持选择Ubuntu 18.04版本的镜像。 - 535.216.03 - 12.1.1 - 8.9.7.29 - gn7i、gn7e、gn7s、gn6v、gn6i、gn6e、gn5、gn5i 
- ebmgn7、ebmgn7i、ebmgn7e、ebmgn6v、ebmgn6i、ebmgn6e 
- sccgn7ex 
- ebmgn7ix、ebmgn7ex 
 - Alibaba Cloud Linux 2、Alibaba Cloud Linux 3 
- Ubuntu 20.04、18.04、16.04 
- CentOS 8.x、7.x 
- Debian 10.10 
 说明- sccgn7ex仅支持选择Debian10.10、 Ubuntu 20.04、 CentOS 8.3以及Alibaba Cloud Linux 2版本的镜像。 
- ebmgn7e和ebmgn7ex不支持选择Ubuntu 18.04、20.04版本的镜像。 
 - 470.256.02 - 11.4.1 - 8.2.4 - gn7、gn7i、gn7e、gn6v、gn6i、gn6e、gn5、gn5i 
- ebmgn7、ebmgn7i、ebmgn7e、ebmgn6v、ebmgn6i、ebmgn6e 
 - Alibaba Cloud Linux 2 
- Ubuntu 20.04、18.04、16.04 
- CentOS 8.x、7.x 
 - 460.91.03 - 11.2.2 - 8.1.1 - gn7、gn7e、gn6v、gn6i、gn6e、gn5、gn5i 
- ebmgn7、ebmgn7e、ebmgn6v、ebmgn6i、ebmgn6e 
 - Alibaba Cloud Linux 2 
- Ubuntu 20.04、18.04、16.04 
- CentOS 8.x、7.x 
 - 460.91.03 - 11.0.2 - 8.1.1 
- 8.0.4 
 - gn6v、gn6i、gn6e、gn5、gn5i 
- ebmgn6v、ebmgn6i、ebmgn6e 
 - Alibaba Cloud Linux 2 
- Ubuntu 18.04、16.04 
- CentOS 8.x、7.x 
 - 460.91.03 - 10.2.89 - 8.1.1 
- 8.0.4 
- 7.6.5 
 - gn6v、gn6i、gn6e、gn5、gn5i 
- ebmgn6v、ebmgn6i、ebmgn6e 
 - Ubuntu 18.04、16.04 
- CentOS 7.x 
 - 450.80.02 
- 440.64.00 
 - 10.1.168 - 8.0.4 
- 7.6.5 
- 7.5.0 
 - gn6v、gn6i、gn6e、gn5、gn5i 
- ebmgn6v、ebmgn6i、ebmgn6e 
 - Ubuntu 18.04、16.04 
- CentOS 7.x 
 - 450.80.02 
- 440.64.00 
 - 10.0.130 - 7.6.5 
- 7.5.0 
- 7.4.2 
- 7.3.1 
 重要- 如果实例创建完成后需要更换操作系统,请您确保使用支持自动安装Tesla驱动的公共镜像。如果您选择了不支持自动安装Tesla驱动的公共镜像,请先取消自动安装Tesla驱动功能,具体操作,请参见更换操作系统时如何取消自动安装Tesla驱动功能。 
- 如果您通过 - pip3 install torch安装了版本为2.1.2的PyTorch,则需要安装版本为12.1的CUDA,否则在使用PyTorch过程中会报错,更多信息,请参见使用PyTorch时出现“undefined symbol: __nvJitLinkAddData_12_1, version libnvJitLink.so.12”报错。
 - 以gn7i实例为例,在镜像区域的公共镜像页签下,选择Linux操作系统及版本(例如Alibaba Cloud Linux 3.2104 LTS 64位)时,选中安装GPU驱动选项,继续依次选择CUDA版本、Driver版本以及cuDNN版本,则创建实例后会同步安装NVIDIA Tesla驱动。  - 实例创建或启动后,Tesla驱动的相关说明如下: - 除了为实例配置自动安装Tesla驱动、CUDA和cuDNN库,您还可以根据实际需要继续选择是否自动安装RDMA软件栈(仅超级计算集群sccgn7ex涉及),是否安装eRDMA软件栈(仅部分第7代GPU实例(如ebmgn7ex和ebmgn7ix)以及第8代所有GPU实例(如ebmgn8is和gn8is等涉及)。待所有软件安装完成后,实例会自动重启,然后Tesla驱动才能正常工作。 说明- Tesla驱动在Persistence Mode下工作更稳定。自动安装脚本会自动开启Tesla驱动的Persistence Mode,并将该设置添加到Linux系统服务中,在开机时自动启动服务,从而确保实例重启后默认自动开启Persistence Mode。 - RDMA软件栈 - RDMA(Remote Direct Memory Access)软件栈包含RDMA网卡驱动及所需工具包。 说明- 为优化神龙架构GPU服务器的网络性能,阿里云推出了sccgn7ex实例规格,该规格机型配备了具有超强计算能力的GPU和RDMA(Remote Direct Memory Access)高性能网络服务。如果您选择了sccgn7ex实例,则需要根据自身业务,选择是否自动安装RDMA软件栈。 - 如果单独选中安装RDMA软件栈,则实例创建后会自动安装RDMA网卡驱动及所需工具包,方便您快速使用RDMA的高性能网络服务(例如高吞吐量、低延迟特性)。 
- 如果同时选中安装GPU驱动和安装RDMA软件栈,则实例创建后会自动安装RDMA软件栈和GPU驱动、CUDA、cuDNN,并自动加载nvidia_peermem模块,方便您的业务使用GPU Direct RDMA功能。更多信息,请参见sccgn系列实例使用说明及验证。 
 
- eRDMA软件栈 - eRDMA(Elastic Remote Direct Memory Access)是阿里云自研的云上弹性RDMA网络,具备传统RDMA网络的高吞吐、低延迟特性,同时可支持秒级的大规模RDMA组网。RDMA软件栈包含NVIDIA MLNX_OFED驱动、eRDMA驱动以及所需工具包。 说明- 目前部分第7代GPU实例(如ebmgn7ex和ebmgn7ix)以及第8代所有GPU实例(如ebmgn8is和gn8is等)支持创建/挂载弹性RDMA网卡。如果您选择了该实例,则需要根据自身业务选择是否自动安装eRDMA软件栈。 - 如果单独选中安装eRDMA软件栈,则实例创建后会自动安装NVIDIA MLNX_OFED驱动及eRDMA驱动,方便您快速使用RDMA功能。 
- 如果同时选中安装GPU驱动和安装eRDMA软件栈,则实例创建后会自动安装eRDMA软件栈和GPU驱动、CUDA、cuDNN,并自动加载nvidia_peermem模块,方便您的业务使用GPU Direct RDMA功能。 
 - 更多信息,请参见在GPU实例上启用eRDMA。 
 
 - 自动安装Tesla驱动耗时受不同实例规格的内网带宽和CPU核数影响,大约需要10~20分钟。您可以远程连接实例并查看安装过程,也可以在安装完成后查看安装日志/root/auto_install/auto_install.log。安装过程中的显示效果如下所示: - 安装过程 - 显示效果 - 正在安装 - 显示安装进度条。 - 安装成功 - 安装结果提示ALL INSTALL OK。 - 安装失败 - 安装结果提示INSTALL FAIL。 重要- 在安装过程中无法使用GPU时,请勿对实例进行任何操作。如果安装了GPU某些软件,则会由于自动安装失败而导致实例不可用。 
 
- 按照页面提示,完成订单支付。 
通过预装驱动的云市场镜像自动加载驱动
部分GPU计算型实例(Linux)的云市场镜像中已预装了NVIDIA Tesla驱动,该镜像供您免费使用。您可以在云市场镜像中选择已预装了Tesla驱动的免费镜像,创建GPU实例时选用该镜像也会同步加载Tesla驱动。
- 前往实例创建页。 
- 选择自定义购买页签。 
- 按需选择付费类型、地域、网络及可用区、实例规格、镜像等配置。 - 除实例规格和镜像外,如需了解其他配置项的详情,请参见配置项说明。 - 如果需要获得GPU超强的计算能力,您可以选择如下云市场镜像,在创建GPU实例时同步加载Tesla驱动。 - 支持的实例规格 - 已预装驱动或软件栈的镜像 - 版本信息 - 是否已安装nvidia- fabircmanager - gn7e、gn7i、gn6e、gn6v、gn6i、gn5、gn5i 
- ebmgn7i、ebmgn6e、ebmgn6v、ebmgn6i 
 - Alibaba Cloud Linux 2 64位(预装NVIDIA GPU驱动) 
- Ubuntu 20.04 64位(预装NVIDIA GPU驱动) 
- CentOS 7.9 64位(预装NVIDIA GPU驱动) 
 - Tesla驱动版本:470.161.03 
- CUDA版本:11.4.1 
- cuDNN版本:8.2.4 
 - 否 - Alibaba Cloud Linux 3.2104 LTS 64位预装NVIDIA GPU驱动镜像 - Tesla驱动版本:535.154.05 
- Docker版本:26.1.3 
- NVIDIA Container Toolkit版本:1.13.5 
 - 否 - Alibaba Cloud Linux 3.2104 LTS 64位预装NVIDIA GPU 550.90.07驱动镜像 - Tesla驱动版本:550.90.07 
- CUDA版本:12.4.1 
- cuDNN版本:9.2.0 
- Docker版本:26.1.3 
- eRDMA版本:0.2.37 
 - 是 - Ubuntu 22.04 64位预装NVIDIA GPU 550.90.07驱动镜像 - Tesla驱动版本:550.90.07 
- CUDA版本:12.4.1 
- cuDNN版本:9.2.0 
- Docker版本:27.0.3 
- eRDMA版本:0.2.37 
 - 是 - 以华北2(北京)地域的gn6i(ecs.gn6i-c4g1.xlarge)实例为例,在镜像区域的云市场镜像页签下,支持选择已预装NVIDIA Tesla驱动的免费镜像。如果选择了云市场镜像中已预装驱动的镜像,则创建实例时自动加载NVIDIA Tesla驱动。例如: - 单击从云市场获取更多选择(含操作系统),然后搜索 - 预装NVIDIA,选择并使用已预装NVIDIA Tesla驱动的免费镜像。 
- 如果需要快速使用RDMA/eRDMA的高性能网络服务(例如高吞吐、低延迟特性)功能以实现RDMA直通加速能力 ,您可以选择如下云市场镜像,在创建GPU实例时自动加载Tesla驱动、RDMA软件栈或eRDMA软件栈。 - 支持的实例规格 - 已预装驱动或软件栈的镜像 - 版本信息 - sccgn7ex - Alibaba Cloud Linux 2 64位 for sccgn7ex(预装NVIDIA GPU驱动/RDMA软件栈) 
- Ubuntu 20.04 64位 for sccgn7ex(预装NVIDIA GPU驱动/RDMA软件栈) 
 - Tesla驱动版本:525.105.17 
- CUDA版本:12.0.1 
- cuDNN版本:8.9.1.23 
 - 支持eRDMA弹性网卡的实例(例如ebmgn7ix、ebmgn7ex、ebmgn8is等) - Alibaba Cloud Linux 3 64位 (预装eRDMA软件栈) - eRDMA驱动版本:0.2.37 
 
- 按照页面提示,完成订单支付。 
通过自动安装脚本方式安装驱动
在创建GPU实例时,如果在镜像区域未选中安装GPU驱动选项,则您可以在自定义数据区域输入自动安装脚本来安装NVIDIA Tesla驱动。
脚本参数设置说明
使用自动安装脚本时,您需要根据实际业务场景修改如下参数。
- 根据您所创建的实例规格和镜像,修改对应的Tesla驱动、CUDA和cuDNN库版本。详细的版本支持情况,请参见通过公共镜像自动安装驱动中选择公共镜像时Tesla驱动支持的镜像版本和实例规格。 - 以修改Tesla驱动版本为550.127.08、CUDA版本为12.4.1、cuDNN版本为9.2.0.82为例,示例如下: - DRIVER_VERSION="550.127.08" CUDA_VERSION="12.4.1" CUDNN_VERSION="9.2.0.82"
- (条件必选)如果实例为超级计算集群sccgn7ex的实例规格族,则设置是否安装RDMA软件栈。 - 仅超级计算集群sccgn7ex的实例规格族支持安装RDMA软件栈。如需安装RDMA软件栈,则将 - IS_INSTALL_RDMA的值设置为- TRUE,否则设置为- FALSE。示例如下:- IS_INSTALL_RDMA="TRUE"
- (条件必选)如果实例为部分第7代GPU实例(如ebmgn7ex和ebmgn7ix)以及第8代所有GPU实例(如ebmgn8is和gn8is),则设置是否安装eRDMA软件栈。 - 仅部分第7代GPU实例(如ebmgn7ex和ebmgn7ix)以及第8代所有GPU实例(如ebmgn8is和gn8is)支持安装eRDMA软件栈。如需安装eRDMA软件栈,则将 - IS_INSTALL_eRDMA的值设置为- TRUE,否则设置为- FALSE。示例如下:- IS_INSTALL_eRDMA="TRUE"
操作步骤
- 前往实例创建页。 
- 选择自定义购买页签。 
- 按需选择付费类型、地域、网络及可用区、实例规格、镜像、自定义数据等配置。 - 如需了解其他配置项,请参见配置项说明。 
- 在高级选项(选填)的自定义数据区域内,手动输入已准备的脚本内容。 - 您可以自行准备自动安装脚本,关于自动安装脚本参数设置的详细说明,请参见脚本参数设置说明。 - 本脚本以使用 - .run安装包方式安装Tesla驱动等模块为例。脚本示例如下所示:- #!/bin/sh #Please input version to install DRIVER_VERSION="550.127.08" CUDA_VERSION="12.4.1" CUDNN_VERSION="9.2.0.82" IS_INSTALL_eRDMA="FALSE" IS_INSTALL_RDMA="FALSE" INSTALL_DIR="/root/auto_install" #using .run to install driver and cuda auto_install_script="auto_install_v4.0.sh" script_download_url=$(curl http://100.100.100.200/latest/meta-data/source-address | head -1)"/opsx/ecs/linux/binary/script/${auto_install_script}" echo $script_download_url rm -rf $INSTALL_DIR mkdir -p $INSTALL_DIR cd $INSTALL_DIR && wget -t 10 --timeout=10 $script_download_url && bash ${INSTALL_DIR}/${auto_install_script} $DRIVER_VERSION $CUDA_VERSION $CUDNN_VERSION $IS_INSTALL_RDMA $IS_INSTALL_eRDMA 
- 按照页面提示,完成订单支付。 说明- 如果调用RunInstances接口来创建GPU实例,则您只能通过UserData参数上传自动安装脚本来安装NVIDIA Tesla驱动,更多信息,请参见RunInstances。 
- 在创建GPU实例时,如果未同时自动安装NVIDIA Tesla驱动,则可在GPU实例创建后手动执行自动安装脚本来安装Tesla驱动等软件。即通过SSH登录实例后,在实例内编辑一个文件,然后将自动安装脚本内容复制到实例内并作为Shell脚本执行。关于实例连接方式的介绍,请参见ECS远程连接方式概述。 
 
相关文档
针对通用计算场景或图形加速场景,如果您在创建GPU计算型实例时未自动安装或加载Tesla驱动,则需要在创建GPU实例后,单独安装相应驱动。具体操作,请参见: