测试SCC集群性能

超级计算集群SCC具有无虚拟化损耗、高带宽低延迟网络的优点,可以保证高性能计算和人工智能、机器学习等应用的高度并行需求。本文为您介绍如何创建SCC集群,并测试SCC集群的相关性能。

背景信息

超级计算集群SCC(Super Computing Cluster)在弹性裸金属服务器基础上,加入高速RDMA(Remote Direct Memory Access)互联支持,大幅提升网络性能,提高大规模集群加速比。因此SCC在提供高带宽、低延迟优质网络的同时,还具备弹性裸金属服务器的所有优点。更多信息,请参见超级计算集群概述

针对E-HPC多机并行计算需求,SCC可以提供低延时RDMA网络互联,同时提供VPC网络隔离能力;SCC实例无虚拟化损耗,您可以直接访问硬件资源。因此,SCC适合仿真制造、生命科学、机器学习、大规模分子动力学和气象预报等应用场景。

SCC实例与普通ECS实例相比,配备了高带宽低延迟的RDMA网络,所以网络通信能力与普通ECS实例相比有明显差异。正常的SCC实例会显示如下网口信息,其中eth0为RDMA网口,lo为VPC网口。

SCC..png

使用限制

目前仅部分地域可用区支持SCC规格,具体请参见ECS实例规格可购买地域总览

创建SCC集群

  1. 登录弹性高性能计算控制台

  2. 创建一个E-HPC集群。具体操作,请参见使用向导创建集群

    配置集群时,软硬件参数配置如下:

    参数

    说明

    硬件参数

    部署方式为精简,包含1个管控节点和0个计算节点,其中计算节点规格选择SCC规格。

    重要

    计算节点选择SCC规格时,该节点无法在创建集群时加入。您需要在集群创建完成后通过扩容方式添加SCC规格的计算节点。

    软件参数

    镜像选择CentOS 7.6公共镜像,调度器选择pbs。

    SCC-创建集群..png
  3. 扩容集群,增加使用SCC规格的计算节点。具体操作,请参见扩容集群

    本文使用的SCC规格示例为ecs.scch5s.16xlarge,数量为2个。

    SCC-扩容集群..png
  4. 创建一个集群用户。具体操作,请参见创建用户

    集群用户用于登录集群,进行编译软件、提交作业等操作,配置用户权限时,权限组请选择sudo权限组

  5. 安装软件。具体操作,请参见安装软件

    需安装的软件如下:

    • linpack,版本为2018。

    • intel-mpi,版本为2018。

测试SCC集群的网络性能

测试RDMA网络的峰值带宽

  1. 分别登录compute000节点和compute001节点。

  2. 测试读带宽的峰值。

    1. 在compute000节点执行以下命令。

      ib_read_bw -a -q 20 --report_gbits   ##服务端compute000执行
    2. 在compute001节点执行以下命令。

      ib_read_bw -a -q 20 --report_gbits compute000  ##用户端compute001执行

      预期返回如下:

      读带宽测试峰值
  3. 测试写带宽的峰值。

    1. 在compute000节点执行以下命令。

      ib_write_bw -a -q 20 --report_gbits  ##服务端compute000执行
    2. 在compute001节点执行以下命令。

      ib_write_bw -a -q 20 --report_gbits compute000  ##用户端compute001执行

      预期返回如下:

      写带宽测试峰值

测试RDMA网络的延迟

  1. 连接集群。具体操作,请参见登录集群

  2. 测试RDMA网络的读延迟。

    1. 在compute000节点执行以下命令。

      ib_read_lat -a   ##服务端compute000执行
    2. 在compute001节点执行以下命令。

      ib_read_lat -F -a compute000  ##用户端compute001执行

      预期返回如下:

      SCC-读延迟..png
  3. 测试RDMA网络的写延迟。

    1. 在compute000节点执行以下命令。

      ib_write_lat -a  ##服务端compute000执行
    2. 在compute001节点执行以下命令。

      ib_write_lat -F -a compute000  ##用户端compute001执行

      预期返回如下:

      RoCE网络的写延迟

监测RDMA网络的实际带宽利用情况

  1. 使用root用户登录计算节点(如compute000节点)。

  2. 执行以下命令监测RDMA网络的实际带宽利用情况。

    rdma_monitor -s

    返回示例如下:

    SCC-网络监测..png

查看SCC集群节点的性能

  1. 弹性高性能计算控制台的左侧导航栏,选择作业与性能管理>E-HPC优化器

  2. 性能大盘页面,选择目标集群,在操作列单击节点

  3. 节点性能页签,选择对应的节点、时间段和指标,即可查看集群节点的相关性能。

    SCC-集群性能..png