超级计算集群SCC具有无虚拟化损耗、高带宽低延迟网络的优点,可以保证高性能计算和人工智能、机器学习等应用的高度并行需求。本文为您介绍如何创建SCC集群,并测试SCC集群的相关性能。
背景信息
超级计算集群SCC(Super Computing Cluster)在弹性裸金属服务器基础上,加入高速RDMA(Remote Direct Memory Access)互联支持,大幅提升网络性能,提高大规模集群加速比。因此SCC在提供高带宽、低延迟优质网络的同时,还具备弹性裸金属服务器的所有优点。更多信息,请参见超级计算集群概述。
针对E-HPC多机并行计算需求,SCC可以提供低延时RDMA网络互联,同时提供VPC网络隔离能力;SCC实例无虚拟化损耗,您可以直接访问硬件资源。因此,SCC适合仿真制造、生命科学、机器学习、大规模分子动力学和气象预报等应用场景。
SCC实例与普通ECS实例相比,配备了高带宽低延迟的RDMA网络,所以网络通信能力与普通ECS实例相比有明显差异。正常的SCC实例会显示如下网口信息,其中eth0为RDMA网口,lo为VPC网口。
使用限制
目前仅部分地域可用区支持SCC规格,具体请参见ECS实例规格可购买地域总览。
创建SCC集群
登录弹性高性能计算控制台。
创建一个E-HPC集群。具体操作,请参见使用向导创建集群。
配置集群时,软硬件参数配置如下:
参数
说明
硬件参数
部署方式为精简,包含1个管控节点和0个计算节点,其中计算节点规格选择SCC规格。
重要计算节点选择SCC规格时,该节点无法在创建集群时加入。您需要在集群创建完成后通过扩容方式添加SCC规格的计算节点。
软件参数
镜像选择CentOS 7.6公共镜像,调度器选择pbs。
扩容集群,增加使用SCC规格的计算节点。具体操作,请参见扩容集群。
本文使用的SCC规格示例为ecs.scch5s.16xlarge,数量为2个。
创建一个集群用户。具体操作,请参见创建用户。
集群用户用于登录集群,进行编译软件、提交作业等操作,配置用户权限时,权限组请选择sudo权限组。
安装软件。具体操作,请参见安装软件。
需安装的软件如下:
linpack,版本为2018。
intel-mpi,版本为2018。
测试SCC集群的网络性能
测试RDMA网络的峰值带宽
分别登录compute000节点和compute001节点。
测试读带宽的峰值。
在compute000节点执行以下命令。
ib_read_bw -a -q 20 --report_gbits ##服务端compute000执行
在compute001节点执行以下命令。
ib_read_bw -a -q 20 --report_gbits compute000 ##用户端compute001执行
预期返回如下:
测试写带宽的峰值。
在compute000节点执行以下命令。
ib_write_bw -a -q 20 --report_gbits ##服务端compute000执行
在compute001节点执行以下命令。
ib_write_bw -a -q 20 --report_gbits compute000 ##用户端compute001执行
预期返回如下:
测试RDMA网络的延迟
连接集群。具体操作,请参见登录集群。
测试RDMA网络的读延迟。
在compute000节点执行以下命令。
ib_read_lat -a ##服务端compute000执行
在compute001节点执行以下命令。
ib_read_lat -F -a compute000 ##用户端compute001执行
预期返回如下:
测试RDMA网络的写延迟。
在compute000节点执行以下命令。
ib_write_lat -a ##服务端compute000执行
在compute001节点执行以下命令。
ib_write_lat -F -a compute000 ##用户端compute001执行
预期返回如下:
监测RDMA网络的实际带宽利用情况
使用root用户登录计算节点(如compute000节点)。
执行以下命令监测RDMA网络的实际带宽利用情况。
rdma_monitor -s
返回示例如下:
查看SCC集群节点的性能
在弹性高性能计算控制台的左侧导航栏,选择作业与性能管理>E-HPC优化器。
在性能大盘页面,选择目标集群,在操作列单击节点。
在节点性能页签,选择对应的节点、时间段和指标,即可查看集群节点的相关性能。