针对高性能计算的场景,阿里云提供了弹性高性能计算产品,由PaaS层的弹性高性能计算E-HPC(Elastic High Performance Computing)及其算力底座超级计算集群SCC(Super Computing Cluster)组成。

弹性高性能计算E-HPC

弹性高性能计算E-HPC将计算能力积聚,用并行计算方式解决更大规模的科学、工程和商业问题,在工业制造、科学研究、石油勘探、金融市场、气象预报、生物制药、基因测序、影视渲染等行业均有广泛的应用。

产品架构图如下所示。EHPC架构

E-HPC集群节点支持基于云服务器ECS、超级计算集群SCC或GPU云服务器等进行组建,大大提高了集群的可用性。在需求或任务队列使用率变化时,E-HPC能自动识别节点的负载情况,动态调整云上资源。

表 1. E-HPC与传统计算集群的对比
对比项 E-HPC 传统计算集群
部署
  • 无需排期,即买即用,快速得到计算结果。
  • 产品规格丰富,可根据使用场景灵活选择适用规格。
  • 资源有限,多用户使用时需排队等待。
  • 线下扩容采购周期长,部署周期长。
安全 数据保存在云端,高可靠存储,安全无忧。 数据保存在客户端,用户行为不可控,安全难以保障。
成本
  • 按需自动扩缩容资源,在保证服务可靠可用的前提下,有效降低成本。
  • 无需顾虑硬件升级换代。
  • 提供优化的软件许可证和调度机制,节约成本。
  • 按使用峰值购买设备,利用率较低。
  • 需一次性购置基础硬件设施,成本压力大。
  • 需要考虑硬件设施的升级换代,增加集群成本。
运维
  • 自动运维,弹性伸缩自动替换不健康的节点。
  • E-HPC提供了高性能计算领域的多款软件,并且跟随E-HPC产品一起升级。
  • 资源采购和交付周期长,升级、变配困难。
  • 需配备专业运维人员。

超级计算集群SCC

超级计算集群SCC是一系列弹性裸金属服务器实例规格的组合,并在此基础上,加入高速RDMA(Remote Direct Memory Access)互联支持,大幅提升网络性能,提高大规模集群加速比。

SCC主要用于高性能计算和人工智能、机器学习、科学计算、工程计算、数据分析、音视频处理等场景。在集群内,各节点间通过RDMA网络互联,提供了高带宽低延迟网络,保证了高性能计算和人工智能、机器学习等应用的高度并行需求。同时,RoCE(RDMA over Convergent Ethernet)网络速度达到InfiniBand网络级的性能,且能支持更广泛的基于以太网的应用。SCC与阿里云ECS、GPU云服务器等计算类产品一起,为阿里云弹性高性能计算服务提供了高性能的并行计算资源,实现云上超算。