文档

创建GPU实例

更新时间:
重要

本文中含有需要您注意的重要提示信息,忽略该信息可能对您的业务造成影响,请务必仔细阅读。

GPU实例在大规模并行计算或者图形渲染场景下,具有较强的计算能力和图形处理能力。使用GPU实例可以为您的业务提供更好的计算性能或者满足专业级图形设计需求,本文为您介绍如何创建GPU实例。

操作步骤

  1. 前往实例创建页

  2. 选择自定义购买页签。

  3. 按需选择付费类型地域、网络及可用区、实例规格、镜像等配置。

    各配置项详细说明,请参见配置项说明

  4. 在确认下单前,请检查实例的整体配置并配置使用时长等选项,确保各项配置符合您的要求。

    不同实例的使用时长配置如下所示:

    • 按量付费实例或抢占式实例:设置自动释放实例的时间。您也可以在创建实例后手动释放实例,或者配置自动释放。具体操作,请参见释放实例

    • 包年包月实例:选择购买时长以及是否启用自动续费。您也可以在创建实例后手动续费实例,或者配置自动续费。具体操作,请参见续费概述

  5. 选择对应的服务协议。

    • 如果您购买的是按量付费实例或抢占式实例,请阅读《云服务器ECS服务条款》,如无疑问,选中《云服务器ECS服务条款》

      说明

      如果选择云市场镜像中的镜像,则您还需要阅读并确认《镜像商品使用条款》

    • 如果您购买的是包年包月实例,请阅读《云服务器ECS服务条款》《镜像商品使用条款》《云服务器ECS退订说明》,如无疑问,选中《云服务器ECS服务条款》|《镜像商品使用条款》|《云服务器ECS退订说明》

  6. 单击确定下单

  7. 在支付页面,查看实例的总费用,如无疑问按照提示完成支付。

配置项说明

付费类型

付费类型影响实例的计费和收费规则,不同付费类型的实例遵循的资源状态变化规则也存在差异。

说明

购买按量付费ECS资源时,您的阿里云账户余额(即现金余额)和代金券的总值不得小于100.00元人民币。具体充值操作,请参见如何充值

付费类型

说明

相关文档

包年包月

先付费后使用,最短可以按周购买

包年包月

按量付费

先使用后付费,计费周期精确到秒,方便您按需购买和释放资源。

说明

推荐搭配使用节省计划、预留实例券优化成本。

抢占式实例

先使用后付费,相对于按量付费实例价格有一定的折扣,但可能因市场价格变化或实例规格库存不足而自动释放实例。

抢占式实例

地域

地域指数据中心所在的地理区域,选择距离近的地域可以降低网络时延,实例创建完成后不支持更改地域。更多信息,请参见地域和可用区

网络及可用区

推荐您使用专有网络,专有网络之间逻辑上彻底隔离,安全性更高,且支持弹性公网IP(EIP)、弹性网卡、IPv6等功能。

可用区是指在同一地域内,电力和网络互相独立的物理区域。同一可用区内实例之间的网络延时更小,其用户访问速度更快。

网络类型

说明

相关文档

专有网络

专有网络是您在阿里云自己定义的一个隔离网络环境,您可以完全掌控自己的专有网络,例如选择IP地址范围、配置路由表和网关等。

如果在创建实例时不需要自定义专有网络配置,您可以跳过本步骤,系统会自动创建默认专有网络和交换机。

选择已有的专有网络和交换机,或者单击创建专有网络创建交换机前往专有网络控制台即时创建专有网络和交换机。创建完成后,返回ECS实例创建向导并单击refresh按钮,查看专有网络和交换机列表。

说明

如果您需要为实例分配IPv6地址,请选择已开通IPv6网段的专有网络和交换机。

经典网络

经典网络类型的实例统一部署在阿里云公共基础设施内,规划和管理由阿里云负责。

说明

如果您是在2017年6月14日17:00(UTC+8)以后第一次购买ECS实例,不能再选择经典网络。

网络类型

实例和镜像

实例规格和镜像定义了一台实例的基本属性:vCPU、内存和操作系统等基础资源。

实例规格

可选的实例规格和地域等因素有关,您可以前往ECS实例可购买地域查看实例的可购情况。

如果您有特定的配置需求,例如需要挂载多张弹性网卡、使用ESSD云盘、使用本地盘等,请确认实例规格是否支持。关于实例规格的特点、适用场景、指标数据等信息,请参见实例规格族

如果选择付费类型抢占式实例,配置使用时长和上限价格。

  • 实例使用时长:使用时长指抢占式实例的保护期,超出保护期后可能因市场价格变化或实例规格库存不足而自动释放实例。

    实例使用时长

    说明

    设定实例使用1小时

    抢占式实例创建后有1小时保护期,在保护期内不会被自动释放。

    无确定使用时长

    抢占式实例创建后没有保护期,但比有保护期的抢占式实例更优惠。

  • 单台实例上限价格

    单台实例上限价格

    说明

    使用自动出价

    始终使用实例规格的实时市场价格,该市场价格不会超过对应按量付费实例的价格。使用自动出价可以避免抢占式实例因实时市场价格超过上限被自动释放,但不能避免因实例规格的库存不足被自动释放。

    设置单台上限价

    自行输入明确的价格上限,实例规格的实时市场价格超出该上限或者库存不足时,抢占式实例都会被自动释放。

完成实例配置后,您可以在当前选择后确认所选实例规格信息。如果您需要体验阿里云推出的集群极速部署工具FastGPU,帮助您将人工智能计算任务一键部署在阿里云的IaaS资源上,可以单击了解更多>,FastGPU的更多信息,请参见什么是集群极速部署工具FastGPU

镜像

镜像提供了运行实例所需的信息,阿里云提供多种镜像来源供您方便地获取镜像,如下表所示。

镜像来源

说明

公共镜像

阿里云官方提供的基础镜像,均已获得正版授权,涵盖Windows Server系统镜像和主流的Linux系统镜像。

自定义镜像

您自行创建或导入的镜像,包含了初始系统环境、应用环境、软件配置等信息,可以节省重复配置的时间。

共享自定义镜像

其他阿里云账号共享的自定义镜像,方便跨账号使用同一镜像创建实例。

云市场镜像

云市场镜像中的镜像均经过严格审核,种类丰富,方便您一键部署用于建站、应用开发等场景的云服务器。

社区镜像

社区镜像是一种完全公开的镜像。您可以将制作好的自定义镜像发布为社区镜像供他人使用,也可以获取并使用他人发布的社区镜像。

选择镜像时,您可以根据实际需要选择是否同步安装NVIDIA Tesla驱动,或者是否选择已预装NVIDIA Tesla驱动或NVIDIA GRID驱动的免费镜像来同步加载相应驱动。更多信息,请参见Tesla或GRID驱动

存储

实例通过添加系统盘、数据盘和共享盘NAS获得存储能力,云服务器ECS提供了云盘和本地盘满足不同场景的需求。

  • 云盘可以用作系统盘和数据盘,包括ESSD云盘、SSD云盘、高效云盘等类型。更多信息,请参见云盘概述

    说明

    随实例一起创建的云盘和实例的付费模式相同。

  • 本地盘只能用作数据盘,如果实例规格配备了本地盘(例如本地SSD型、大数据型等),页面中会显示本地盘的信息。更多信息,请参见本地盘

    说明

    不支持自行为实例挂载本地盘。

系统盘

系统盘用于安装操作系统,默认容量为40 GiB,但实际可设置的最低容量和镜像类型有关,如下表所示。

镜像

系统盘容量范围(GiB)

Linux(不包括FreeBSD和Red Hat)

[max{20, 镜像文件大小}, 2048]

FreeBSD

[max{30, 镜像文件大小}, 2048]

Red Hat

[max{40, 镜像文件大小}, 2048]

Windows

[max{40, 镜像文件大小}, 2048]

(可选)数据盘

数据盘用于存储应用数据,选择数据盘时,您还可以加密云盘满足数据安全或法规合规等场景的要求。关于数据加密的介绍,请参见云盘加密概述

说明

单台实例支持挂载的数据盘存在数量限制。更多信息,请参见块存储使用限制

(可选)快照服务

快照是云盘在某一时间点数据状态的备份文件,用快照创建云盘便于快速导入数据。创建实例时即可为云盘开启自动备份,有效应对数据误删等风险。

选择已有的自动快照策略,或者单击创建自动快照策略前往快照页面即时创建自动快照策略。具体操作,请参见创建自动快照策略。创建完成后,返回ECS实例创建向导并单击refresh按钮,查看自动快照策略列表。

重要

使用快照会产生费用,更多详情,请参见快照计费

(可选)共享盘NAS

如果您有较多数据需要供多台实例共享访问,推荐使用NAS文件系统,可以节约大量拷贝与同步成本。

选择已有的NAS文件系统,或者单击创建新NAS文件系统前往NAS文件系统控制台即时创建NAS文件系统。具体操作,请参见通过控制台创建通用型NAS文件系统。创建完成后,返回ECS实例创建向导并单击refresh按钮,查看NAS文件系统列表。关于挂载NAS文件系统时的注意事项,请参见新购ECS时挂载NAS文件系统

带宽和安全组

(条件必选)公网IP

如果实例需要进行公网通信,必须分配公网IP。您可以在创建实例时选择自动分配一个固定公网IP,或者在创建实例后自行配置,通过EIP、NAT网关等方式进行公网通信。EIP、NAT网关需要自行购买,更多信息,请参见什么是弹性公网 IP什么是NAT网关

选中分配公网 IPv4 地址,设置带宽计费模式带宽值带宽峰值

关于公网带宽计费的详细规则,请参见公网带宽计费

带宽计费模式

说明

按固定带宽

按指定的带宽值收费,实际的出网带宽不会高于指定的带宽值。

  • 适用于对网络带宽要求比较稳定的业务场景。

  • 如果云服务器使用率较高,需长时间使用带宽,或带宽利用率高于10%,建议选择按固定带宽计费。

按使用流量

按实际产生的网络带宽流量收费。为避免产生高额的带宽流量费,可先设置出网带宽峰值。

  • 适用于对网络带宽需求变化较大的业务场景。

  • 如果公网带宽利用率不高于10%,平时没什么流量,在某个高峰时段流量波动较大,建议选择按使用流量计费。

安全组

安全组是一种虚拟防火墙,用于控制安全组内实例的入流量和出流量。更多信息,请参见安全组概述

当选择的VPC下没有安全组时,系统会自动创建默认安全组。默认安全组入方向放行22端口、3389端口及ICMP协议,在创建完成后您可以修改安全组配置。

您也可以根据业务需要,选择已有安全组或新建安全组,新建安全组时,需配置安全组名称安全组类型开通IPv4端口

说明

关于安全组各项配置的详细说明,请参见创建安全组

(可选)弹性网卡

弹性网卡分为主网卡和辅助网卡。主网卡不支持从实例解绑,只能随实例一起创建和释放。辅助网卡支持自由绑定至实例和从实例解绑,方便您在实例之间切换网络流量。如需随实例一起创建辅助网卡,请单击add-nic图标,然后选择辅助网卡所属的交换机。

说明

创建实例时只能添加1块辅助网卡,您也可以在实例创建完成后单独创建辅助网卡并绑定至实例。关于各实例规格支持绑定的弹性网卡的数量,请参见实例规格族

(可选)配置IPv6

开通了IPv6后,IPv6的地址数量不仅能解决网络地址资源数量的问题,而且也解决了多种接入设备连入互联网的障碍。

选中免费分配 IPv6 地址。分配IPv6地址后,您需要登录实例并在操作系统内部进行IPv6地址相关的配置,才能正常使用IPv6地址。具体操作,请参见Windows实例配置IPv6地址Linux实例配置IPv6地址

管理设置

管理设置包括登录凭证和标签,用于远程连接实例和方便地检索和管理资源。

登录凭证

登录凭证用于安全地登录实例,关于实例连接方式的介绍,请参见连接方式概述

登录凭证

说明

密钥对

说明

仅Linux实例支持使用密钥对登录认证。

选择登录实例的用户名和已有的密钥对,或者单击创建密钥对即时创建密钥对。创建完成后,返回ECS实例创建向导并单击refresh按钮,查看密钥对列表。具体操作,请参见创建SSH密钥对

用户名支持设置为rootecs-user

警告

root具有操作系统的最高权限,使用root作为用户名可能会导致安全风险,建议您使用普通用户ecs-user作为用户名。

使用镜像预设密码

说明

自定义镜像共享镜像支持此认证方式。

可以直接使用所选镜像的预设密码进行登录认证。为了保证您的正常使用,请确保所选镜像中已经设置了密码。

自定义密码

输入并确认密码。使用登录名和密码登录实例时,用户名信息如下:

  • Linux实例:支持设置为rootecs-user

    警告

    root具有操作系统的最高权限,使用root作为用户名可能会导致安全风险,建议您使用普通用户ecs-user作为用户名。

  • Windows实例:默认为administrator

创建后设置

在实例创建完成后,自行绑定密钥对或者重置实例密码。具体操作,请参见绑定SSH密钥对重置实例登录密码

标签

标签由一对键值(Key-Value)组成。使用标签标识具有相同特征的资源后,例如所属组织或用途相同的资源,您可以基于标签方便地检索和管理资源。更多信息,请参见标签概述

选择已有的标签,或者填写标签键和标签值即时创建标签。

(可选)高级选项 含Tesla驱动自动安装脚本

高级选项包括主机名、实例元数据、实例自定义数据等,用于定制实例在控制台和操作系统内显示的信息或使用方式。

参数

说明

实例名称描述主机名有序后缀

创建多台实例时,设置有序的实例名称和主机名称便于从名称了解实例的批次等信息。关于设置有序名称的规则,请参见批量设置有序的实例名称或主机名称

实例RAM角色

实例通过实例RAM角色获得该角色拥有的权限,可以基于临时安全令牌STS(Security Token Service)访问指定云服务的API和操作指定的云资源,安全性更高。

选择已有的实例RAM角色,或者单击创建实例RAM角色前往RAM控制台即时创建实例RAM角色。创建完成后,返回ECS实例创建向导并单击refresh按钮,查看实例RAM角色列表。具体操作,请参见创建实例RAM角色并为角色授予权限

元数据访问模式

实例元数据(metadata)包含了实例在阿里云系统中的信息,您可以在运行中的实例内方便地查看实例元数据,并基于实例元数据配置或管理实例。关于如何查看实例元数据,请参见实例元数据

自定义数据

实例自定义数据可以作为实例自定义脚本在启动实例时执行,实现自动化配置实例,或者仅作为普通数据传入实例。更多信息,请参见设置实例自定义数据(Linux实例)使用实例自定义数据(Windows实例)

在输入框中输入您准备的实例自定义数据。如果实例自定义数据已进行Base64编码,请选中输入已采用 Base64 编码

资源组

资源组供您从业务角度管理跨地域、跨产品的资源,并支持针对资源组管理权限。更多信息,请参见资源组

选择已有的资源组,或者单击创建资源组前往资源管理控制台即时创建资源组。创建完成后,返回ECS实例创建向导并单击refresh按钮,查看资源组列表。具体操作,请参见创建资源组

部署集

部署集支持高可用策略,部署集内实例会严格分散在不同的物理服务器上,保证业务的高可用性和底层容灾能力。

选择已有的部署集,或者单击管理部署集即时创建部署集。创建完成后,返回ECS实例创建向导并单击refresh按钮,查看部署集列表。具体操作,请参见创建部署集

专有宿主机

专有宿主机是一台由单租户独享物理资源的云主机,具有满足严格的安全合规要求、允许自带许可证(BYOL)上云等优势。

选择已有的专有宿主机,或者单击创建专有宿主机即时创建专有宿主机。创建完成后,返回ECS实例创建向导并单击refresh按钮,查看专有宿主机列表。具体操作,请参见创建DDH

私有池类型

创建弹性保障或容量预定后,系统会自动生成私有池,预留特定属性特定数量的实例。从关联的私有池中创建这一类实例,可以提供资源确定性保障。更多信息,请参见资源管家概述

说明

弹性保障和容量预定仅支持为按量付费实例保障资源供应确定性。

  • 开放:优先使用开放类型私有池的容量,如果开放类型私有池无可用容量,则尝试使用公共池的容量。

  • 不使用:不使用任何私有池的容量。

  • 指定:继续指定一个专用或开放类型私有池的ID,使用其容量创建实例。如果该私有池没有可用容量,则创建失败。

(可选)Tesla驱动自动安装脚本参数设置

在创建GPU实例时,如果在镜像区域未选中安装GPU驱动选项,则您可以在自定义数据区域手动输入自动安装脚本来安装NVIDIA Tesla驱动。

说明
  • 如果调用RunInstances接口来创建GPU实例,则您只能通过UserData参数上传自动安装脚本来安装NVIDIA Tesla驱动。更多信息,请参见RunInstances

  • 在创建GPU实例时,未同时自动安装NVIDIA Tesla驱动,则可以在GPU实例创建后手动执行自动安装脚本,来安装Tesla驱动等软件。即通过SSH登录实例后,在实例内编辑一个文件,然后将自动安装脚本内容复制到实例内并作为Shell脚本执行。关于实例连接方式的介绍,请参见连接方式概述

使用自动安装脚本时,您需要根据实际业务场景修改如下参数。

  • 根据您所创建的实例规格和镜像,修改对应的Tesla驱动、CUDA和cuDNN库版本。详细的版本支持情况,请参见Tesla或GRID驱动公共镜像页签下Tesla驱动支持的镜像版本和实例规格。

    以修改Tesla驱动版本为470.161.03、CUDA版本为11.4.1、cuDNN版本为8.2.4为例,示例如下:

    DRIVER_VERSION="470.161.03"
    CUDA_VERSION="11.4.1"
    CUDNN_VERSION="8.2.4"
  • (条件必选)如果实例为超级计算集群sccgn7ex的实例规格族,则设置是否安装RDMA软件栈。

    仅超级计算集群sccgn7ex的实例规格族支持安装RDMA软件栈。如需安装RDMA软件栈,则将IS_INSTALL_RDMA的值设置为TRUE,否则设置为FALSE。示例如下:

    IS_INSTALL_RDMA="TRUE"
  • (条件必选)如果实例为弹性裸金属服务器ebmgn7ex和ebmgn7ix实例规格族,则设置是否安装eRDMA软件栈。

    仅弹性裸金属服务器ebmgn7ex和ebmgn7ix实例规格族支持安装eRDMA软件栈。如需安装eRDMA软件栈,则将IS_INSTALL_eRDMA的值设置为TRUE,否则设置为FALSE。示例如下:

    IS_INSTALL_eRDMA="TRUE"
  • 设置是否安装AIACC训练加速和AIACC推理加速。

    • 如果安装AIACC训练加速,则将IS_INSTALL_AIACC_TRAIN的值设置为TRUE,否则设置为FALSE。示例如下:

      IS_INSTALL_AIACC_TRAIN="TRUE"
    • 如果安装AIACC推理加速,则将IS_INSTALL_AIACC_INFERENCE的值设置为TRUE,否则设置为FALSE。示例如下:

      IS_INSTALL_AIACC_INFERENCE="FALSE"

(可选)自定义脚本配置操作

  1. 准备自动安装脚本。

    您可以自行准备自动安装脚本,该脚本使用.run安装包方式安装Tesla驱动等模块。具体内容如下所示:

    #!/bin/sh
    
    #Please input version to install
    
    DRIVER_VERSION="525.105.17"
    CUDA_VERSION="12.0.1"
    CUDNN_VERSION="8.9.1.23"
    IS_INSTALL_RDMA="FALSE"
    IS_INSTALL_eRDMA="FALSE"
    IS_INSTALL_AIACC_TRAIN="FALSE"
    IS_INSTALL_AIACC_INFERENCE="FALSE"
    IS_INSTALL_RAPIDS="FALSE"
    
    INSTALL_DIR="/root/auto_install"
    
    #using .run to install driver and cuda 
    auto_install_script="auto_install.sh"
    
    script_download_url=$(curl http://100.100.100.200/latest/meta-data/source-address | head -1)"/opsx/ecs/linux/binary/script/${auto_install_script}"
    echo $script_download_url
    
    mkdir $INSTALL_DIR && cd $INSTALL_DIR
    wget -t 10 --timeout=10 $script_download_url && sh ${INSTALL_DIR}/${auto_install_script} $DRIVER_VERSION $CUDA_VERSION $CUDNN_VERSION $IS_INSTALL_AIACC_TRAIN $IS_INSTALL_AIACC_INFERENCE $IS_INSTALL_RDMA $IS_INSTALL_eRDMA $IS_INSTALL_RAPIDS
  2. 高级选项(选填)自定义数据区域内,手动输入已准备的脚本内容。

    自定义数据.png

    在实例启动完成后,会自动安装Tesla驱动、CUDA和cuDNN库,并根据您配置的脚本内容判断是否自动安装RDMA软件栈(仅超级计算集群sccgn7ex涉及)、安装eRDMA软件栈(仅弹性裸金属服务器ebmgn7ex和ebmgn7ix涉及)、AIACC训练加速以及AIACC推理加速。待所有软件安装完成后,实例会自动重启,然后Tesla驱动才能正常工作。

    说明

    Tesla驱动在Persistence Mode下工作更稳定。自动安装脚本会自动开启GPU驱动的Persistence Mode,并将该设置添加到Linux系统服务中,在开机时自动启动服务,从而确保实例重启后还能默认开启Persistence Mode。

Tesla或GRID驱动

选择镜像时,部分公共镜像支持选择安装GPU驱动选项,创建GPU实例时会自动同步安装Tesla驱动。您也可以在云市场镜像中选择已预装了Tesla驱动或GRID驱动的免费镜像,创建GPU实例时选用该镜像也会同步加载Tesla驱动或GRID驱动。

公共镜像

选择特定的Linux操作系统公共镜像时,系统支持同时选择安装NVIDIA Tesla驱动,支持同步安装Tesla驱动的镜像及可选版本如下所示:

说明

NVIDIA Tesla驱动用于驱动物理GPU,配合CUDA、cuDNN库可以高效低使用GPU,安装NVIDIA Tesla驱动会同步安装CUDA和cuDNN库。如果您业务属于新的业务系统,建议选择最新版本的Tesla驱动、CUDA、cuDNN库。

支持的实例规格

支持的公共镜像版本

NVIDIA Tesla驱动版本

CUDA版本

cuDNN版本

  • gn7i、gn6v、gn6i、gn6e、gn5、gn5i

  • ebmgn7、ebmgn7i、ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i

  • ebmgn7e

  • gn7e

  • gn7s

  • ebmgn7ex

  • ebmgn7ix

  • Alibaba Cloud Linux 2、Alibaba Cloud Linux 3

  • Ubuntu 22.04、20.04、18.04

  • CentOS 8.x、7.x

525.105.17

12.0.1

8.9.1.23

  • gn7i、gn7e、gn7s、gn6v、gn6i、gn6e、gn5、gn5i

  • ebmgn7、ebmgn7i、ebmgn7e、ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i

  • sccgn7ex

  • ebmgn7ex

  • ebmgn7ix

  • Alibaba Cloud Linux 2、Alibaba Cloud Linux 3

  • Ubuntu 20.04、18.04、16.04

  • CentOS 8.x、7.x

  • Debian 10.10

    说明

    Debian 10.10版本仅支持超级计算集群sccgn7ex。

470.161.03

11.4.1

8.2.4

  • gn7、gn7i、gn7e、gn6v、gn6i、gn6e、gn5、gn5i

  • ebmgn7、ebmgn7i、ebmgn7e、ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i

  • Alibaba Cloud Linux 2

  • Ubuntu 20.04、18.04、16.04

  • CentOS 8.x、7.x

460.91.03

11.2.2

8.1.1

  • gn7、gn7e、gn6v、gn6i、gn6e、gn5、gn5i

  • ebmgn7、ebmgn7e、ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i

  • Alibaba Cloud Linux 2

  • Ubuntu 20.04、18.04、16.04

  • CentOS 8.x、7.x

460.91.03

11.0.2

  • 8.1.1

  • 8.0.4

  • gn6v、gn6i、gn6e、gn5、gn5i

  • ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i

  • Alibaba Cloud Linux 2

  • Ubuntu 18.04、16.04

  • CentOS 8.x、7.x

460.91.03

10.2.89

  • 8.1.1

  • 8.0.4

  • 7.6.5

  • gn6v、gn6i、gn6e、gn5、gn5i

  • ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i

  • Ubuntu 18.04、16.04

  • CentOS 7.x

  • 450.80.02

  • 440.64.00

10.1.168

  • 8.0.4

  • 7.6.5

  • 7.5.0

  • gn6v、gn6i、gn6e、gn5、gn5i

  • ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i

  • Ubuntu 18.04、16.04

  • CentOS 7.x

  • 450.80.02

  • 440.64.00

10.0.130

  • 7.6.5

  • 7.5.0

  • 7.4.2

  • 7.3.1

重要
  • 如果实例创建完成后需要更换操作系统,请您确保使用支持自动安装Tesla驱动的公共镜像。如果您选择了不支持自动安装Tesla驱动的公共镜像,请先取消自动安装Tesla驱动功能,具体操作,请参见更换操作系统时,如何取消自动安装GPU驱动

  • 如果您通过pip3 install torch安装了版本为2.1.2的PyTorch,则需要安装版本为12.1的CUDA,否则在使用PyTorch过程中会报错,更多信息,请参见在GPU实例中使用PyTorch时报错怎么办

以ebmgn6i实例为例,在镜像区域的公共镜像页签下,选择Linux操作系统及版本(例如CentOS 7.9 64位)时,根据实际需要选择是否同步安装NVIDIA Tesla驱动。

  • 如果选中安装GPU驱动选项,继续依次选择CUDA版本、Driver版本以及cuDNN版本,则创建实例后会同步安装NVIDIA Tesla驱动。

    说明

    您也可以根据自身业务场景,继续判断是否需要选中AIACC训练加速AIACC推理加速。其中,CentOS 6、SUSE Linux、Alibaba Cloud Linux系统暂不支持安装AIACC-Training和AIACC-Inference。

    镜像.png

    RDMA软件栈、eRDMA软件栈、AIACC训练加速以及AIACC推理加速的说明如下:

    • RDMA软件栈

      RDMA(Remote Direct Memory Access)软件栈包含RDMA网卡驱动及所需工具包。

      说明

      为优化神龙架构GPU服务器的网络性能,阿里云推出了sccgn7ex实例规格,该规格机型配备了具有超强计算能力的GPU和RDMA(Remote Direct Memory Access)高性能网络服务。如果您选择了sccgn7ex实例,则需要根据自身业务,选择是否自动安装RDMA软件栈。

      • 如果单独选中安装RDMA软件栈,则实例创建后会自动安装RDMA网卡驱动及所需工具包,方便您快速使用RDMA的高性能网络服务(例如高吞吐、低延迟特性)功能。

      • 如果同时选中安装GPU驱动安装RDMA软件栈,则实例创建后会自动安装RDMA软件栈和GPU驱动、CUDA、cuDNN,并自动加载nvidia_peermem模块,方便您的业务使用GPU Direct RDMA功能。更多信息,请参见sccgn系列实例使用说明及验证

    • eRDMA软件栈

      eRDMA(Elastic Remote Direct Memory Access)是阿里云自研的云上弹性RDMA网络,享有传统RDMA网络高吞吐、低延迟特性的同时,可支持秒级的大规模RDMA组网。RDMA软件栈包含NVIDIA MLNX_OFED驱动、eRMDA驱动以及所需工具包。

      说明

      目前GPU实例中,ebmgn7ex、ebmgn7ix规格族支持创建/挂载弹性RDMA网卡。如果您选择了ebmgn7ex或ebmgn7ix实例,则需要根据自身业务选择是否自动安装eRDMA软件栈。

      • 如果单独选中安装eRDMA软件栈,则实例创建后会自动安装NVIDIA MLNX_OFED驱动及eRDMA驱动,方便您快速使用RDMA功能。

      • 如果同时选中安装GPU驱动安装eRDMA软件栈,则实例创建后会自动安装eRDMA软件栈和GPU驱动、CUDA、cuDNN,并自动加载nvidia_peermem模块,方便您的业务使用GPU Direct RDMA功能。

      更多信息,请参见在GPU实例上配置eRDMA

    • AIACC-Training

      阿里云自研的AI加速器,支持统一加速AI主流计算框架TensorFlow、PyTorch、MxNet和Caffe等,可以显著提升训练性能。更多信息,请参见什么是神龙AI加速引擎AIACC

    • AIACC-Inference

      阿里云自研的AI加速器,支持统一加速AI主流计算框架TensorFlow和可导出ONNX格式的框架,可以显著提升推理性能。更多信息,请参见什么是神龙AI加速引擎AIACC

  • 如果未选中安装GPU驱动选项,为了不影响GPU实例的正常使用,您可以通过以下方案安装NVIDIA Tesla驱动:

云市场镜像

  • 预装NVIDIA Tesla驱动的镜像

    部分GPU计算型实例(Linux)的云市场镜像中已预装了NVIDIA Tesla驱动,该镜像供您免费使用。已预安装Tesla驱动的镜像及支持的版本信息如下所示。

    支持的实例规格

    已预装驱动的镜像

    NVIDIA Tesla驱动版本

    CUDA版本

    cuDNN版本

    • gn7e、gn7i、gn6e、gn6v、gn6i、gn5、gn5i

    • ebmgn7i、ebmgn6e、ebmgn6v、ebmgn6i

    • Alibaba Cloud Linux 2 64位(预装NVIDIA GPU驱动)

    • Ubuntu 20.04 64位(预装NVIDIA GPU驱动)

    • CentOS 7.9 64位(预装NVIDIA GPU驱动)

    说明

    上述镜像版本均为V 1.0。

    470.161.03

    11.4.1

    8.2.4

    华北2(北京)地域的gn6i(ecs.gn6i-c4g1.xlarge)实例为例,在镜像区域的云市场镜像页签下,支持选择已预装NVIDIA Tesla驱动的免费镜像。

    • 如果选择了云市场镜像中已预装驱动的镜像,则创建实例时同时安装了NVIDIA Tesla驱动。

      单击从云市场获取更多选择(含操作系统),然后搜索预装NVIDIA,选择并使用已预装NVIDIA Tesla驱动的免费镜像。

      云市场.png

    • 如果未选择云市场镜像中的已预装驱动镜像,为了不影响GPU实例的正常使用,则创建实例后您需要单独为GPU实例安装NVIDIA Tesla驱动。具体操作,请参见在GPU计算型实例中安装Tesla驱动(Linux)在GPU计算型实例中安装Tesla驱动(Windows)

  • 预装NVIDIA GRID驱动的镜像

    由于云市场镜像中存在已预装NVIDIA GRID驱动的免费镜像(如下表所示),您可以在创建GPU实例时,直接选用该免费镜像同步加载NVIDIA GRID驱动。

    支持的实例规格

    已预装GRID驱动的镜像

    GPU计算型实例(Windows)

    • Windows Server 2022中文版预装GRID 15.2 SWL驱动镜像

    • Windows Server 2019中文版预装GRID 15.2 SWL驱动镜像

    GPU虚拟型实例(Windows)

    • Windows Server 2022中文版预装GRID 13.5 SWL驱动镜像

    • Windows Server 2019中文版预装GRID 13.5 SWL驱动镜像

    GPU虚拟型实例(Linux)

    • Alibaba Cloud Linux 2.1903 LTS 64位预装GRID 13.5 SWL驱动镜像

    • Alibaba Cloud Linux 3.2104 LTS 64位预装GRID 13.5 SWL驱动镜像

    • CentOS 7.9 64位预装GRID 13.5 SWL驱动镜像

    • Ubuntu 18.04 64位预装GRID 13.5 SWL驱动镜像

    • Ubuntu 20.04 64位预装GRID 13.5 SWL驱动镜像

    • Ubuntu 22.04 64位预装GRID 13.5 SWL驱动镜像

    以创建gn7i计算型实例(Windows)为例,在镜像区域的云市场镜像页签下,支持选择已预装NVIDIA GRID驱动的免费镜像。

    • 如果选择了云市场镜像中已预装驱动的镜像,则创建实例时同时加载NVIDIA Tesla驱动。

      单击从云市场获取更多选择(含操作系统),然后搜索GRID,选择并使用已预装NVIDIA GRID驱动的免费镜像。例如Windows Server 2019 中文版预装GRID 15.2 SWL驱动镜像或者Windows Server 2022 中文版预装GRID 15.2 SWL驱动镜像,这些镜像带有已经激活License的GRID驱动,您无需再手动安装GRID驱动。

      GRID镜像.png

    • 如果未选择云市场镜像中已预装驱动的镜像,为了不影响GPU实例的正常使用,则创建实例后您需要单独为GPU实例安装NVIDIA GRID驱动。具体操作,请参见在GPU虚拟化型实例中安装GRID驱动(Linux)

后续步骤

  • 连接实例

    支持通过多种方式连接实例,包括Workbench、VNC和第三方客户端工具。更多信息,请参见连接方式概述

  • 安装驱动

    如果创建GPU实例时未同时安装Tesla或GRID驱动,您还需要根据实际业务场景安装与该GPU实例匹配的Tesla或GRID驱动,才能正常使用GPU实例的高性能特性。更多信息,请参见Tesla或GRID驱动安装指引

相关文档

  • 如果您需要通过API方式创建GPU实例,请参见RunInstancesCreateInstance

  • 如果您需要对已创建实例进行启用、休眠、重启、释放或者停止等操作,请参见管理GPU实例

  • 在GPU实例上部署NGC环境后,开发者可即时访问优化后的深度学习框架,极大程度缩减产品开发以及业务部署时间。更多信息,请参见在GPU实例上部署NGC环境

  • 如果在使用GPU时遇到的一些功能类或操作类问题,如何排查或解决,请参见GPU云服务器常见问题

  • 本页导读 (1)
文档反馈