GPU云服务器提供了GPU加速计算能力,实现GPU计算资源的即开即用和弹性伸缩。其作为阿里云弹性计算家族的一员,结合了GPU计算力与CPU计算力,满足您在人工智能、高性能计算、专业图形图像处理等场景中的需求,例如,在并行运算方面,使用GPU云服务器可显著提高计算效率。
为什么选择GPU云服务器
阿里云GPU云服务器是基于GPU与CPU应用的计算服务器。GPU在执行复杂的数学和几何计算方面有着独特的优势,特别是在浮点运算、并行运算等方面,GPU可以提供比CPU高百倍的计算能力。GPU的功能特性如下:
拥有大量擅长处理大规模并发计算的算术逻辑单元(Arithmetic and Logic Unit,即ALU)。
能够支持多线程并行的高吞吐量运算。
逻辑控制单元相对简单。
下表为您介绍GPU云服务器与自建GPU服务器的区别。
对比项 | GPU云服务器 | GPU自建服务器 |
灵活性 |
|
|
易用性 |
|
|
容灾备份 |
|
|
安全性 |
|
|
成本 |
|
|
GPU实例规格族
实例是能够为您的业务提供计算服务的最小单位,不同的实例规格可以提供的计算能力也不同。根据业务场景和使用场景,ECS实例可以分为多种实例规格族。GPU实例属于ECS实例中的一类实例规格,GPU实例在提供GPU加速能力的同时,保留了与普通ECS实例一致的使用体验。在创建ECS实例时,请选择企业级异构计算规格族群、弹性裸金属服务器和超级计算集群(SCC)实例规格族群下的GPU实例规格即可。关于GPU实例规格的更多信息,请参见实例规格族。
产品优势
覆盖范围广阔
阿里云GPU云服务器在全球17个地域实现规模部署,覆盖范围广,结合弹性供应、弹性伸缩等交付方式,能够很好地满足您业务的突发需求。
超强计算能力
阿里云GPU云服务器配备业界超强算力的GPU计算卡,结合高性能CPU平台,单实例可提供高达1000 TFLOPS的混合精度计算性能。
网络性能出色
阿里云GPU云服务器实例的VPC网络最大支持450万的PPS及32 Gbit/s的内网带宽。在此基础上,超级计算集群产品中,节点间额外提供高达50 Gbit/s的RDMA网络,满足节点间数据传输的低延时高带宽要求。
购买方式灵活
支持灵活的资源付费模式,包括包年包月、按量付费、抢占式实例、预留实例券、存储容量单位包。您可以按需要购买,避免资源浪费。
说明部分GPU实例规格族不支持使用预留实例券。更多信息,请参见预留实例券属性。
同时,阿里云也提供了神行工具包搭配GPU云服务器一起使用,神行工具包具有GPU计算服务增强能力,可以帮助您更方便、更高效地使用阿里云的云上GPU资源。更多信息,请参见神行工具包优势。
产品计费
GPU云服务器的计费相关功能和云服务器ECS一致,其中,计算资源(vCPU、内存以及GPU)、镜像、块存储、公网带宽以及快照等资源涉及计费。
常见的计费方式如下所示:
包年包月:按一定时长购买资源,先付费后使用。
按量付费:按需开通和释放资源,先使用后付费。
抢占式实例:通过竞价模式抢占库存充足的计算资源,相对按量付费实例有一定的折扣,但是存在回收机制。
预留实例券:搭配按量付费实例使用的抵扣券,承诺使用指定配置的实例(包括实例规格、地域和可用区等),以折扣价抵扣计算资源的账单。
节省计划:搭配按量付费实例使用的折扣权益计划,承诺使用稳定数量的资源(以元/小时为单位衡量),以折扣价抵扣计算资源、系统盘等资源的账单。
存储容量单位包:搭配按量付费存储产品使用的资源包,承诺使用指定容量的存储资源,以折扣价抵扣块存储、NAS、OSS等资源的账单。
关于GPU云服务器计费的更多介绍,请参见GPU云服务器计费。
关联工具包
阿里云提供神行工具包供您更高效地使用GPU资源,神行工具包中的组件主要包括以下工具:
关于神行工具包的更多信息,请参见什么是神行工具包(DeepGPU)。
工具名称 | 说明 |
阿里云自研的AI加速器,为生成式AI和大模型场景提供训练和推理加速功能。 | |
阿里云开发的一种用于多GPU互联的AI通信加速库,在AI分布式训练或多卡推理任务中用于提升通信效率。 | |
阿里云开发的大语言模型(Large Language Model,LLM)推理引擎,在处理大语言模型任务中为您提供高性能的大模型推理服务。 | |
阿里云推出的AI分布式训练通信优化库。可实现分布式训练在兼容性、适用性和性能加速等方面的升级。 | |
阿里云推出的一个基于PyTorch深度学习框架研发的计算优化编译器,可以实现无感的计算优化功能。 | |
阿里云基于内核虚拟GPU隔离的容器共享技术,隔离GPU资源,实现多个容器共用一张显卡。 | |