超级计算集群概述

更新时间: 2023-11-01 15:08:33

本文介绍云服务器ECS超级计算集群实例规格族的特点,并列出了具体的实例规格。

超级计算集群介绍

超级计算集群SCC(Super Computing Cluster)在弹性裸金属服务器基础上,加入高速RDMA(Remote Direct Memory Access)互联支持,大幅提升网络性能,提高大规模集群加速比。因此SCC在提供高带宽、低延迟优质网络的同时,还具备弹性裸金属服务器的所有优点。

SCC主要用于高性能计算和人工智能、机器学习、科学计算、工程计算、数据分析、音视频处理等场景。在集群内,各节点间通过RDMA网络互联,提供高带宽低延迟的网络,保证了高性能计算和人工智能、机器学习等应用的高度并行需求。同时,RoCE(RDMA over Converged Ethernet)网络速度达到InfiniBand网络级别的性能,且能支持更广泛的基于Ethernet的应用。

SCC与阿里云ECS、GPU云服务器等计算类产品一起,为阿里云弹性高性能计算平台E-HPC提供了极高性能的并行计算资源,实现真正的云上超算。

机型对比

SCC与物理机、虚拟机的对比如下表所示。其中,Y表示支持,N表示不支持,N/A表示无数据。

功能分类

功能

SCC

物理机

虚拟机

运维自动化

分钟级交付

Y

N

Y

计算

免性能损失

Y

Y

N

免特性损失

Y

Y

N

免资源争抢

Y

Y

N

存储

完全兼容ECS云盘系统

Y

N

Y

使用云盘(系统盘)启动

Y

N

Y

系统盘快速重置

Y

N

Y

使用云服务器ECS的镜像

Y

N

Y

物理机和虚拟机之间相互冷迁移

Y

N

Y

免操作系统安装

Y

N

Y

免本地RAID,提供更高云盘数据保护

Y

N

Y

网络

完全兼容ECS VPC网络

Y

N

Y

完全兼容ECS经典网络

Y

N

Y

物理机集群和虚拟机集群间VPC无通信瓶颈

Y

N

Y

管控

完全兼容ECS现有管控系统

Y

N

Y

VNC等用户体验和虚拟机保持一致

Y

N

Y

带外网络安全

Y

N

N/A

通用型超级计算集群实例规格族sccg7

sccg7的特点如下:

  • 具备弹性裸金属服务器的所有特性。更多信息,请参见弹性裸金属服务器概述

  • 计算:

    • 处理器与内存配比为1:4

    • 处理器:2.9 GHz主频的Intel ® Xeon ® Platinum 8369(Ice lake),全核睿频3.5 GHz

  • 存储:

    • 均为I/O优化实例

    • 支持ESSD云盘、ESSD AutoPL云盘、SSD云盘和高效云盘

  • 网络:

    • 支持IPv6

    • 同时支持RoCE网络和VPC网络,其中RoCE网络专用于RDMA通信

  • 适用场景:

    • 大规模机器学习训练

    • 大规模高性能科学计算和仿真计算

    • 大规模数据分析、批量计算、视频编码

sccg7包括的实例规格及指标数据如下表所示。

实例规格

vCPU

物理内核

内存(GiB)

网络带宽(Gbit/s)

网络收发包PPS

RoCE网络(Gbit/s)

多队列

弹性网卡

单网卡私有IPv4地址数

单网卡IPv6地址数

ecs.sccg7.32xlarge

128

64

512.0

100

2400万

200

8

32

10

10

说明

计算型超级计算集群实例规格族sccc7

sccc7的特点如下:

  • 具备弹性裸金属服务器的所有特性。更多信息,请参见弹性裸金属服务器概述

  • 计算:

    • 处理器与内存配比为1:2

    • 处理器:2.9 GHz主频的Intel ® Xeon ® Platinum 8369(Ice lake),全核睿频3.5 GHz

  • 存储:

    • 均为I/O优化实例

    • 支持ESSD云盘、ESSD AutoPL云盘、SSD云盘和高效云盘

  • 网络:

    • 支持IPv6

    • 同时支持RoCE网络和VPC网络,其中RoCE网络专用于RDMA通信

  • 适用场景:

    • 大规模机器学习训练

    • 大规模高性能科学计算和仿真计算

    • 大规模数据分析、批量计算、视频编码

sccc7包括的实例规格及指标数据如下表所示。

实例规格

vCPU

物理内核

内存(GiB)

网络带宽(Gbit/s)

网络收发包PPS

RoCE网络(Gbit/s)

多队列

弹性网卡

单网卡私有IPv4地址数

单网卡IPv6地址数

ecs.sccc7.32xlarge

128

64

256.0

100

2400万

200

8

32

10

10

说明

高主频计算型超级计算集群实例规格族scchfc6

如需使用,请提交工单

scchfc6的特点如下:

  • 具备弹性裸金属服务器的所有特性。更多信息,请参见弹性裸金属服务器概述

  • 计算:

    • 处理器与内存配比为1:2.4

    • 处理器:3.1 GHz主频的Intel ® Xeon ® Platinum 8269(Cascade Lake),全核睿频3.5 GHz

  • 存储:

    • 均为I/O优化实例

    • 支持ESSD云盘、ESSD AutoPL云盘、SSD云盘和高效云盘

  • 网络:

    • 支持IPv6

    • 同时支持RoCE网络和VPC网络,其中RoCE网络专用于RDMA通信

  • 适用场景:

    • 大规模机器学习训练

    • 大规模高性能科学计算和仿真计算

    • 大规模数据分析、批量计算、视频编码

scchfc6包括的实例规格及指标数据如下表所示。

实例规格

vCPU

物理内核

内存(GiB)

网络带宽(Gbit/s)

网络收发包PPS

RoCE网络(Gbit/s)

多队列

弹性网卡

单网卡私有IP

ecs.scchfc6.20xlarge

80

40

192.0

30

600万

50

8

32

10

说明

高主频通用型超级计算集群实例规格族scchfg6

如需使用,请提交工单

scchfg6的特点如下:

  • 具备弹性裸金属服务器的所有特性。更多信息,请参见弹性裸金属服务器概述

  • 计算:

    • 处理器与内存配比为1:4.8

    • 处理器:3.1 GHz主频的Intel ® Xeon ® Platinum 8269(Cascade Lake),全核睿频3.5 GHz

  • 存储:

    • 均为I/O优化实例

    • 支持ESSD云盘、ESSD AutoPL云盘、SSD云盘和高效云盘

  • 网络:

    • 支持IPv6

    • 同时支持RoCE网络和VPC网络,其中RoCE网络专用于RDMA通信

  • 适用场景:

    • 大规模机器学习训练

    • 大规模高性能科学计算和仿真计算

    • 大规模数据分析、批量计算、视频编码

scchfg6包括的实例规格及指标数据如下表所示。

实例规格

vCPU

物理内核

内存(GiB)

网络带宽(Gbit/s)

网络收发包PPS

RoCE网络(Gbit/s)

多队列

弹性网卡

单网卡私有IP

ecs.scchfg6.20xlarge

80

40

384.0

30

600万

50

8

32

10

说明

高主频内存型超级计算集群实例规格族scchfr6

如需使用,请提交工单

scchfr6的特点如下:

  • 具备弹性裸金属服务器的所有特性。更多信息,请参见弹性裸金属服务器概述

  • 计算:

    • 处理器与内存配比为1:9.6

    • 处理器:3.1 GHz主频的Intel ® Xeon ® Platinum 8269(Cascade Lake),全核睿频3.5 GHz

  • 存储:

    • 均为I/O优化实例

    • 支持ESSD云盘、ESSD AutoPL云盘、SSD云盘和高效云盘

  • 网络:

    • 支持IPv6

    • 同时支持RoCE网络和VPC网络,其中RoCE网络专用于RDMA通信

  • 适用场景:

    • 大规模机器学习训练

    • 大规模高性能科学计算和仿真计算

    • 大规模数据分析、批量计算、视频编码

scchfr6包括的实例规格及指标数据如下表所示。

实例规格

vCPU

物理内核

内存(GiB)

网络带宽(Gbit/s)

网络收发包PPS

RoCE网络(Gbit/s)

多队列

弹性网卡

单网卡私有IP

ecs.scchfr6.20xlarge

80

40

768.0

30

600万

50

8

32

10

说明

高主频型超级计算集群实例规格族scch5

scch5的特点如下:

  • 具备弹性裸金属服务器的所有特性。更多信息,请参见弹性裸金属服务器概述

  • 计算:

    • 处理器与内存配比为1:3

    • 处理器:3.1 GHz主频的Intel ® Xeon ® Gold 6149(Skylake)

  • 存储:

    • 均为I/O优化实例

    • 仅支持SSD云盘和高效云盘

  • 网络:

    • 同时支持RoCE网络和VPC网络,其中RoCE网络专用于RDMA通信

  • 适用场景:

    • 大规模机器学习训练

    • 大规模高性能科学计算和仿真计算

    • 大规模数据分析、批量计算、视频编码

scch5包括的实例规格及指标数据如下表所示。

实例规格

vCPU

物理内核

内存(GiB)

网络带宽(Gbit/s)

网络收发包PPS

RoCE网络(Gbit/s)

多队列

弹性网卡

单网卡私有IP

ecs.scch5.16xlarge

64

32

192.0

10

450万

50

8

32

10

说明

通用型超级计算集群实例规格族sccg5

sccg5的特点如下:

  • 具备弹性裸金属服务器的所有特性。更多信息,请参见弹性裸金属服务器概述

  • 计算:

    • 处理器与内存配比为1:4

    • 处理器:2.5 GHz主频的Intel ® Xeon ® Platinum 8163(Skylake),计算性能稳定

  • 存储:

    • 均为I/O优化实例

    • 仅支持SSD云盘和高效云盘

  • 网络:

    • 同时支持RoCE网络和VPC网络,其中RoCE网络专用于RDMA通信

  • 适用场景:

    • 大规模机器学习训练

    • 大规模高性能科学计算和仿真计算

    • 大规模数据分析、批量计算、视频编码

sccg5包括的实例规格及指标数据如下表所示。

实例规格

vCPU

物理内核

内存(GiB)

网络带宽(Gbit/s)

网络收发包PPS

RoCE网络(Gbit/s)

多队列

弹性网卡

单网卡私有IP

ecs.sccg5.24xlarge

96

48

384.0

10

450万

50

8

32

10

说明

GPU计算型超级计算集群实例规格族sccgn7ex

sccgn7ex的特点如下:

  • sccgn7ex是阿里云为了面对日益增长的大规模AI训练需求开发的高带宽超算集群实例。多台裸金属服务器之间采用第三代RDMA SCC网络互联,支持800 G的互联带宽。您可以根据训练需求弹性选择线上集群数量,快速满足大规模AI参数训练的需求。

  • 计算:

    • 支持NVSwitch,算力高达312T(TF32)

    • 处理器与内存配比为1:8

    • 处理器:采用第三代Intel ® Xeon ® 8369可扩展处理器(Ice lake),基频2.9 GHz,全核睿频3.5 GHz,支持PCIe 4.0接口

  • 存储:

    • I/O优化实例

    • 支持ESSD云盘和ESSD AutoPL云盘

  • 网络:

    • 支持IPv6

    • 仅支持专有网络VPC

    • 超高网络性能,2400万PPS网络收发包能力

    • sccgn7ex实例间支持800 Gbit/s的互联带宽(4 * 双口100 Gbit/s RDMA),支持GPUDirect,每颗GPU直连一个100 Gbit/s网口

  • 适用场景:超大规模AI训练场景

sccgn7ex包括的实例规格及指标数据如下表所示。

实例规格

vCPU

内存(GiB)

GPU显存(GB)

网络带宽(Gbit/s)

网络收发包PPS

RoCE网络(Gbit/s)

多队列(主网卡/辅助网卡)

弹性网卡

单网卡私有IPv4地址数

单网卡IPv6地址数

ecs.sccgn7ex.32xlarge

128

1024

80 GB * 8

64

2400万

800

32/12

32

15

15

说明

GPU计算型超级计算集群实例规格族sccgn6e

如需使用,请提交工单

sccgn6e的特点如下:

  • 具备弹性裸金属服务器的所有特性。更多信息,请参见弹性裸金属服务器概述

  • 计算:

    • GPU加速器:

      • 创新的Volta架构

      • GPU显存32 GB HBM2

      • CUDA Cores 5120

      • Tensor Cores 640

      • GPU显存带宽900 GB/s

      • 单GPU支持6个NVLink链路(NVLink属于双向链路),单向链路的带宽为25 Git/s,总带宽为6×25×2=300 Git/s

    • 处理器与内存配比为1:8

    • 处理器:2.5 GHz主频的Intel ® Xeon ® Platinum 8163(Skylake),计算性能稳定

  • 存储:

    • I/O优化实例

    • 支持ESSD云盘、ESSD AutoPL云盘、SSD云盘和高效云盘

    • 支持高性能并行文件系统CPFS

  • 网络:

    • 支持IPv6

    • 支持专有网络VPC

    • 支持RoCE V2网络,用于低延迟的RDMA通信

  • 适用场景:

    • 超大规模机器学习集群训练场景

    • 大规模高性能科学计算和仿真计算

    • 大规模数据分析、批量计算、视频编码

sccgn6e包括的实例规格及指标数据如下表所示。

实例规格

vCPU

内存(GiB)

GPU

GPU显存(GB)

网络带宽(Gbit/s)

网络收发包PPS

RoCE网络(Gbit/s)

多队列

弹性网卡

单网卡私有IP

ecs.sccgn6e.24xlarge

96

768.0

NVIDIA V100 * 8

32GB * 8

32

480万

50

8

32

10

说明

GPU计算型超级计算集群实例规格族sccgn6

sccgn6的特点如下:

  • 具备弹性裸金属服务器的所有特性。更多信息,请参见弹性裸金属服务器概述

  • 计算:

    • GPU加速器:V100(SXM2封装)

      • 创新的Volta架构

      • GPU显存16 GB HBM2

      • CUDA Cores 5120

      • Tensor Cores 640

      • GPU显存带宽900 GB/s

      • GPU支持6个NVLink链路(NVLink属于双向链路),单向链路的带宽为25 Git/s,总带宽为6×25×2=300 Git/s

    • 处理器与内存配比为1:4

    • 处理器:2.5 GHz主频的Intel ® Xeon ® Platinum 8163(Skylake),计算性能稳定

  • 存储:

    • I/O优化实例

    • 支持ESSD云盘、ESSD AutoPL云盘、SSD云盘和高效云盘

    • 支持高性能并行文件系统CPFS

  • 网络:

    • 支持IPv6

    • 支持专有网络VPC

    • 支持RoCE V2网络,用于低延迟的RDMA通信

  • 适用场景:

    • 超大规模机器学习集群训练场景

    • 大规模高性能科学计算和仿真计算

    • 大规模数据分析、批量计算、视频编码

sccgn6包括的实例规格及指标数据如下表所示。

实例规格

vCPU

内存(GiB)

GPU

网络带宽(Gbit/s)

网络收发包PPS

RoCE网络(Gbit/s)

多队列

弹性网卡

单网卡私有IP

ecs.sccgn6.24xlarge

96

384.0

NVIDIA V100 * 8

30

450万

50

8

32

10

说明

计费方式

SCC支持按量付费和包年包月。不同计费方式的区别,请参见计费方式概述

阿里云首页 云服务器 ECS 相关技术圈