本文介绍云服务器ECS超级计算集群实例规格族的特点,并列出了具体的实例规格。
超级计算集群介绍
超级计算集群SCC(Super Computing Cluster)在弹性裸金属服务器基础上,加入高速RDMA(Remote Direct Memory Access)互联支持,大幅提升网络性能,提高大规模集群加速比。因此SCC在提供高带宽、低延迟优质网络的同时,还具备弹性裸金属服务器的所有优点。
SCC主要用于高性能计算和人工智能、机器学习、科学计算、工程计算、数据分析、音视频处理等场景。在集群内,各节点间通过RDMA网络互联,提供高带宽低延迟的网络,保证了高性能计算和人工智能、机器学习等应用的高度并行需求。同时,RoCE(RDMA over Converged Ethernet)网络速度达到InfiniBand网络级别的性能,且能支持更广泛的基于Ethernet的应用。
SCC与阿里云ECS、GPU云服务器等计算类产品一起,为阿里云弹性高性能计算平台E-HPC提供了极高性能的并行计算资源,实现真正的云上超算。
机型对比
SCC与物理机、虚拟机的对比如下表所示。其中,Y表示支持,N表示不支持,N/A表示无数据。
功能分类 | 功能 | SCC | 物理机 | 虚拟机 |
运维自动化 | 分钟级交付 | Y | N | Y |
计算 | 免性能损失 | Y | Y | N |
免特性损失 | Y | Y | N | |
免资源争抢 | Y | Y | N | |
存储 | 完全兼容ECS云盘系统 | Y | N | Y |
使用云盘(系统盘)启动 | Y | N | Y | |
系统盘快速重置 | Y | N | Y | |
使用云服务器ECS的镜像 | Y | N | Y | |
物理机和虚拟机之间相互冷迁移 | Y | N | Y | |
免操作系统安装 | Y | N | Y | |
免本地RAID,提供更高云盘数据保护 | Y | N | Y | |
网络 | 完全兼容ECS VPC网络 | Y | N | Y |
完全兼容ECS经典网络 | Y | N | Y | |
物理机集群和虚拟机集群间VPC无通信瓶颈 | Y | N | Y | |
管控 | 完全兼容ECS现有管控系统 | Y | N | Y |
VNC等用户体验和虚拟机保持一致 | Y | N | Y | |
带外网络安全 | Y | N | N/A |
通用型超级计算集群实例规格族sccg7
sccg7的特点如下:
具备弹性裸金属服务器的所有特性。更多信息,请参见弹性裸金属服务器规格。
计算:
处理器与内存配比为1:4
处理器:2.9 GHz主频的Intel ® Xeon ® Platinum 8369(Ice lake),全核睿频3.5 GHz
存储:
均为I/O优化实例
仅支持ESSD云盘、ESSD AutoPL云盘、SSD云盘和高效云盘
网络:
支持IPv6
同时支持RoCE网络和VPC网络,其中RoCE网络专用于RDMA通信
适用场景:
大规模高性能科学计算和仿真计算
大规模数据分析、批量计算、视频编码
sccg7包括的实例规格及指标数据如下表所示。
实例规格 | vCPU | 物理内核 | 内存(GiB) | 网络基础带宽(Gbit/s) | 网络收发包PPS | RoCE网络(Gbit/s) | 多队列 | 弹性网卡 | 单网卡私有IPv4地址数 | 单网卡IPv6地址数 |
ecs.sccg7.32xlarge | 128 | 64 | 512.0 | 100 | 2400万 | 200 | 8 | 32 | 10 | 10 |
您可以前往ECS实例可购买地域,查看实例在各地域的可购情况。
指标的含义请参见实例规格族。
如果基于CentOS 7.9或CentOS 8.4版本的自定义镜像创建ecs.sccg7规格族的ECS实例,实例创建完成后,需要在ECS实例内手动安装RDMA驱动。具体操作,请参见基于SCC实例规格族的RDMA驱动安装说明。
计算型超级计算集群实例规格族sccc7
sccc7的特点如下:
具备弹性裸金属服务器的所有特性。更多信息,请参见弹性裸金属服务器规格。
计算:
处理器与内存配比为1:2
处理器:2.9 GHz主频的Intel ® Xeon ® Platinum 8369(Ice lake),全核睿频3.5 GHz
存储:
均为I/O优化实例
仅支持ESSD云盘、ESSD AutoPL云盘、SSD云盘和高效云盘
网络:
支持IPv6
同时支持RoCE网络和VPC网络,其中RoCE网络专用于RDMA通信
适用场景:
大规模机器学习训练
大规模高性能科学计算和仿真计算
大规模数据分析、批量计算、视频编码
sccc7包括的实例规格及指标数据如下表所示。
实例规格 | vCPU | 物理内核 | 内存(GiB) | 网络基础带宽(Gbit/s) | 网络收发包PPS | RoCE网络(Gbit/s) | 多队列 | 弹性网卡 | 单网卡私有IPv4地址数 | 单网卡IPv6地址数 |
ecs.sccc7.32xlarge | 128 | 64 | 256.0 | 100 | 2400万 | 200 | 8 | 32 | 10 | 10 |
您可以前往ECS实例可购买地域,查看实例在各地域的可购情况。
指标的含义请参见实例规格族。
如果基于CentOS 7.9或CentOS 8.4版本的自定义镜像创建ecs.sccc7规格族的ECS实例,实例创建完成后,需要在ECS实例内手动安装RDMA驱动。具体操作,请参见基于SCC实例规格族的RDMA驱动安装说明。
高主频计算型超级计算集群实例规格族scchfc6
如需使用,请提交工单。
scchfc6的特点如下:
具备弹性裸金属服务器的所有特性。更多信息,请参见弹性裸金属服务器规格。
计算:
处理器与内存配比为1:2.4
处理器:3.1 GHz主频的Intel ® Xeon ® Platinum 8269(Cascade Lake),全核睿频3.5 GHz
存储:
均为I/O优化实例
仅支持ESSD云盘、ESSD AutoPL云盘、SSD云盘和高效云盘
网络:
支持IPv6
同时支持RoCE网络和VPC网络,其中RoCE网络专用于RDMA通信
适用场景:
大规模机器学习训练
大规模高性能科学计算和仿真计算
大规模数据分析、批量计算、视频编码
scchfc6包括的实例规格及指标数据如下表所示。
实例规格 | vCPU | 物理内核 | 内存(GiB) | 网络基础带宽(Gbit/s) | 网络收发包PPS | RoCE网络(Gbit/s) | 多队列 | 弹性网卡 | 单网卡私有IPv4地址数 |
ecs.scchfc6.20xlarge | 80 | 40 | 192.0 | 30 | 600万 | 50 | 8 | 32 | 10 |
ecs.scchfc6.20xlarge在40个物理内核上提供80个逻辑处理器。
您可以前往ECS实例可购买地域,查看实例在各地域的可购情况。
指标的含义请参见实例规格族。
高主频通用型超级计算集群实例规格族scchfg6
如需使用,请提交工单。
scchfg6的特点如下:
具备弹性裸金属服务器的所有特性。更多信息,请参见弹性裸金属服务器规格。
计算:
处理器与内存配比为1:4.8
处理器:3.1 GHz主频的Intel ® Xeon ® Platinum 8269(Cascade Lake),全核睿频3.5 GHz
存储:
均为I/O优化实例
仅支持ESSD云盘、ESSD AutoPL云盘、SSD云盘和高效云盘
网络:
支持IPv6
同时支持RoCE网络和VPC网络,其中RoCE网络专用于RDMA通信
适用场景:
大规模机器学习训练
大规模高性能科学计算和仿真计算
大规模数据分析、批量计算、视频编码
scchfg6包括的实例规格及指标数据如下表所示。
实例规格 | vCPU | 物理内核 | 内存(GiB) | 网络基础带宽(Gbit/s) | 网络收发包PPS | RoCE网络(Gbit/s) | 多队列 | 弹性网卡 | 单网卡私有IPv4地址数 |
ecs.scchfg6.20xlarge | 80 | 40 | 384.0 | 30 | 600万 | 50 | 8 | 32 | 10 |
ecs.scchfg6.20xlarge在40个物理内核上提供80个逻辑处理器。
您可以前往ECS实例可购买地域,查看实例在各地域的可购情况。
指标的含义请参见实例规格族。
高主频内存型超级计算集群实例规格族scchfr6
如需使用,请提交工单。
scchfr6的特点如下:
具备弹性裸金属服务器的所有特性。更多信息,请参见弹性裸金属服务器规格。
计算:
处理器与内存配比为1:9.6
处理器:3.1 GHz主频的Intel ® Xeon ® Platinum 8269(Cascade Lake),全核睿频3.5 GHz
存储:
均为I/O优化实例
仅支持ESSD云盘、ESSD AutoPL云盘、SSD云盘和高效云盘
网络:
支持IPv6
同时支持RoCE网络和VPC网络,其中RoCE网络专用于RDMA通信
适用场景:
大规模机器学习训练
大规模高性能科学计算和仿真计算
大规模数据分析、批量计算、视频编码
scchfr6包括的实例规格及指标数据如下表所示。
实例规格 | vCPU | 物理内核 | 内存(GiB) | 网络基础带宽(Gbit/s) | 网络收发包PPS | RoCE网络(Gbit/s) | 多队列 | 弹性网卡 | 单网卡私有IPv4地址数 |
ecs.scchfr6.20xlarge | 80 | 40 | 768.0 | 30 | 600万 | 50 | 8 | 32 | 10 |
ecs.scchfr6.20xlarge在40个物理内核上提供80个逻辑处理器。
您可以前往ECS实例可购买地域,查看实例在各地域的可购情况。
指标的含义请参见实例规格族。
高主频型超级计算集群实例规格族scch5
scch5的特点如下:
具备弹性裸金属服务器的所有特性。更多信息,请参见弹性裸金属服务器规格。
计算:
处理器与内存配比为1:3
处理器:3.1 GHz主频的Intel ® Xeon ® Gold 6149(Skylake)
存储:
均为I/O优化实例
仅支持SSD云盘和高效云盘
网络:
同时支持RoCE网络和VPC网络,其中RoCE网络专用于RDMA通信
适用场景:
大规模机器学习训练
大规模高性能科学计算和仿真计算
大规模数据分析、批量计算、视频编码
scch5包括的实例规格及指标数据如下表所示。
实例规格 | vCPU | 物理内核 | 内存(GiB) | 网络基础带宽(Gbit/s) | 网络收发包PPS | RoCE网络(Gbit/s) | 多队列 | 弹性网卡 | 单网卡私有IPv4地址数 |
ecs.scch5.16xlarge | 64 | 32 | 192.0 | 10 | 450万 | 50 | 8 | 32 | 10 |
ecs.scch5.16xlarge在32个物理内核上提供64个逻辑处理器。
您可以前往ECS实例可购买地域,查看实例在各地域的可购情况。
指标的含义请参见实例规格族。
GPU计算型超级计算集群实例规格族sccgn7ex
sccgn7ex的特点如下:
sccgn7ex是阿里云为了面对日益增长的大规模AI训练需求开发的高带宽超算集群实例。多台裸金属服务器之间采用第三代RDMA SCC网络互联,支持800 G的互联带宽。您可以根据训练需求弹性选择线上集群数量,快速满足大规模AI参数训练的需求。
计算:
支持NVSwitch,算力高达312T(TF32)
处理器与内存配比为1:8
处理器:采用第三代Intel® Xeon® 8369可扩展处理器(Ice lake),基频2.9 GHz,全核睿频3.5 GHz,支持PCIe 4.0接口
存储:
I/O优化实例
仅支持ESSD云盘和ESSD AutoPL云盘
网络:
支持IPv6
仅支持专有网络VPC
超高网络性能,2400万PPS网络收发包能力
sccgn7ex实例间支持800 Gbit/s的互联带宽(4 * 双口100 Gbit/s RDMA),支持GPUDirect,每颗GPU直连一个100 Gbit/s网口
适用场景:超大规模AI训练场景
sccgn7ex包括的实例规格及指标数据如下表所示。
实例规格 | vCPU | 内存(GiB) | GPU显存(GB) | 网络基础带宽(Gbit/s) | 网络收发包PPS | RoCE网络(Gbit/s) | 多队列(主网卡/辅助网卡) | 弹性网卡 | 单网卡私有IPv4地址数 | 单网卡IPv6地址数 |
ecs.sccgn7ex.32xlarge | 128 | 1024 | 80 GB * 8 | 64 | 2400万 | 800 | 32/12 | 32 | 15 | 15 |
您可以前往ECS实例可购买地域,查看实例在各地域的可购情况。
指标的含义请参见实例规格族。
计费方式
SCC支持按量付费和包年包月。不同计费方式的区别,请参见计费方式概述。