即开即用弹性伸缩的GPU计算资源-GPU云服务器-阿里云

GPU云服务器提供了GPU加速计算能力，实现GPU计算资源的即开即用和弹性伸缩。作为阿里云弹性计算家族的一员，其结合了GPU计算力与CPU计算力，满足您在人工智能、高性能计算、专业图形图像处理等场景中的需求，例如，在并行运算方面，使用GPU云服务器可显著提高计算效率。

为什么选择GPU云服务器

阿里云GPU云服务器是基于GPU与CPU应用的计算服务器。GPU在执行复杂的数学和几何计算方面有着独特的优势，特别是在浮点运算、并行运算等方面，GPU可以提供比CPU高百倍的计算能力。GPU的功能特性如下：

拥有大量擅长处理大规模并发计算的算术逻辑单元（Arithmetic and Logic Unit，即ALU）。
能够支持多线程并行的高吞吐量运算。
逻辑控制单元相对简单。

下表为您介绍GPU云服务器与自建GPU服务器的区别。

对比项	GPU云服务器	GPU自建服务器
灵活性	能够快速开通一台或多台GPU云服务器实例。实例规格（vCPU、内存及GPU）支持灵活变更，并且支持在线升降配。带宽升降自由。	服务器购买周期长。服务器规格固定，无法灵活变更。带宽一次性购买，无法自由升降。
易用性	Web在线管理，简单方便。内置主流的操作系统，Windows正版激活，且支持在线更换操作系统。 GPU驱动可以在购买时一并安装，方便快捷。	没有在线管理工具，维护困难。需用户自备操作系统，自行安装及更换。 GPU驱动需要自行购买安装。
容灾备份	三副本数据设计，单份损坏可在短时间内快速恢复。硬件故障事故中可快速自动恢复。	用户自行搭建，使用普通存储设备，价格高昂。数据损坏需用户修复。
安全性	能够有效阻止MAC欺骗和ARP攻击。并防护DDoS攻击，可进行流量清洗和黑洞。享有端口入侵扫描、挂马扫描、漏洞扫描等附加服务。	很难阻止MAC欺骗和ARP攻击。清洗和黑洞设备需要另外购买，价格昂贵。普遍存在漏洞挂马和端口扫描等问题。
成本	支持包年包月及按量付费两种购买方式，可灵活选择适合您业务场景的付费方式。按需购买，无需一次性大量投入。	无法按需购买，必须为业务峰值满配。一次性投入巨大，闲置浪费严重。

GPU实例规格族

实例是能够为您的业务提供计算服务的最小单位，不同的实例规格可以提供的计算能力也不同。根据业务场景和使用场景，ECS实例可以分为多种实例规格族。GPU实例属于ECS实例中的一类实例规格，GPU实例在提供GPU加速能力的同时，保留了与普通ECS实例一致的使用体验。在创建ECS实例时，请选择企业级异构计算规格族、弹性裸金属服务器和超级计算集群（SCC）实例规格族下的GPU实例规格即可。

关于GPU实例规格的更多信息，请参见实例规格族。

产品优势

覆盖范围广阔
阿里云GPU云服务器在全球多个地域实现规模部署，覆盖范围广，结合弹性供应、弹性伸缩等交付方式，能够很好地满足您业务的突发需求。
计算能力超强
阿里云GPU云服务器配备业界超强算力的GPU计算卡，结合高性能CPU平台，单实例可提供高达1000 TFLOPS的混合精度计算性能。
网络性能出色
阿里云GPU云服务器实例的VPC网络最大支持450万的PPS及32 Gbit/s的内网带宽。在此基础上，超级计算集群产品中，节点间额外提供高达50 Gbit/s的RDMA网络，满足节点间数据传输的低延时高带宽要求。
购买方式灵活
支持灵活的资源付费模式，包括包年包月、按量付费、抢占式实例、预留实例券、存储容量单位包。您可以按需要购买，避免资源浪费。

同时，阿里云也提供了神行工具包搭配GPU云服务器一起使用，神行工具包具有GPU计算服务增强能力，可以帮助您更方便、更高效地使用阿里云的云上GPU资源。更多信息，请参见神行工具包优势。

产品计费

GPU云服务器的计费相关功能和云服务器ECS一致，其中，计算资源（vCPU、内存以及GPU）、镜像、块存储、公网带宽以及快照等资源涉及计费。

常见的计费方式如下所示：

包年包月：按一定时长购买资源，先付费后使用。
按量付费：按需开通和释放资源，先使用后付费。
抢占式实例：通过竞价模式抢占库存充足的计算资源，相对按量付费实例有一定的折扣，但是存在回收机制。
预留实例券：搭配按量付费实例使用的抵扣券，承诺使用指定配置的实例（包括实例规格、地域和可用区等），以折扣价抵扣计算资源的账单。
节省计划：搭配按量付费实例使用的折扣权益计划，承诺使用稳定数量的资源（以元/小时为单位衡量），以折扣价抵扣计算资源、系统盘等资源的账单。
存储容量单位包：搭配按量付费存储产品使用的资源包，承诺使用指定容量的存储资源，以折扣价抵扣块存储、NAS、OSS等资源的账单。

关于GPU云服务器计费的更多介绍，请参见GPU云服务器计费。

关联工具包

阿里云提供神行工具包供您更高效地使用GPU资源，神行工具包中的组件主要包括以下工具：

说明

关于神行工具包的更多信息，请参见什么是神行工具包（DeepGPU）。

工具名称	说明
AI加速器Deepytorch	阿里云自研的AI加速器，为生成式AI和大模型场景提供训练和推理加速功能。
什么是AI通信加速库DeepNCCL	阿里云开发的一种用于多GPU互联的AI通信加速库，在AI分布式训练或多卡推理任务中用于提升通信效率。
什么是推理引擎DeepGPU-LLM	阿里云开发的大语言模型（Large Language Model，LLM）推理引擎，在处理大语言模型任务中为您提供高性能的大模型推理服务。
GPU容器共享技术cGPU	阿里云基于内核虚拟GPU隔离的容器共享技术，隔离GPU资源，实现多个容器共用一张显卡。
集群极速部署工具FastGPU	阿里云推出的人工智能（AI）计算任务构建工具，提供便捷的接口和命令行，供您在阿里云IaaS资源上构建人工智能计算任务。

对比项	GPU云服务器	GPU自建服务器
灵活性	能够快速开通一台或多台GPU云服务器实例。实例规格（vCPU、内存及GPU）支持灵活变更，并且支持在线升降配。带宽升降自由。	服务器购买周期长。服务器规格固定，无法灵活变更。带宽一次性购买，无法自由升降。
易用性	Web在线管理，简单方便。内置主流的操作系统，Windows正版激活，且支持在线更换操作系统。 GPU驱动可以在购买时一并安装，方便快捷。	没有在线管理工具，维护困难。需用户自备操作系统，自行安装及更换。 GPU驱动需要自行购买安装。
容灾备份	三副本数据设计，单份损坏可在短时间内快速恢复。硬件故障事故中可快速自动恢复。	用户自行搭建，使用普通存储设备，价格高昂。数据损坏需用户修复。
安全性	能够有效阻止MAC欺骗和ARP攻击。并防护DDoS攻击，可进行流量清洗和黑洞。享有端口入侵扫描、挂马扫描、漏洞扫描等附加服务。	很难阻止MAC欺骗和ARP攻击。清洗和黑洞设备需要另外购买，价格昂贵。普遍存在漏洞挂马和端口扫描等问题。
成本	支持包年包月及按量付费两种购买方式，可灵活选择适合您业务场景的付费方式。按需购买，无需一次性大量投入。	无法按需购买，必须为业务峰值满配。一次性投入巨大，闲置浪费严重。