阿里云首页 弹性高性能计算E-HPC

测试SCC集群性能

超级计算集群SCC(Super Computing Cluster)实例针对E-HPC多机并行计算需求,提供了低延时RDMA(Remote Direct Memory Access)网络互联。SCC实例无虚拟化损耗,同时提供VPC网络隔离能力,您可直接访问硬件资源。SCC实例适合仿真制造、生命科学、机器学习、大规模分子动力学和气象预报等应用场景。本文为您介绍如何创建SCC集群,并测试SCC集群的相关性能。

背景信息

超级计算集群SCC在弹性裸金属服务器基础上,加入高速RDMA互联支持,大幅提升网络性能,提高大规模集群加速比。因此SCC在提供高带宽、低延迟优质网络的同时,还具备弹性裸金属服务器的所有优点。更多信息,请参见超级计算集群概述

SCC实例与普通ECS实例相比,配备了50 Gbps的RDMA网络,所以网络通信能力与普通ECS实例相比有明显差异。正常的SCC实例会显示如下网口信息,其中eth0为RDMA网口,lo为VPC网口。

网口

E-HPC支持ecs.scchfg6.20xlarge、ecs.scch5s.16xlarge等SCC规格,更多信息,请参见产品规格

创建SCC集群

  1. 登录弹性高性能计算控制台

  2. 创建一个名为HPL.test的SCC集群。具体操作,请参见创建集群

    在配置参数时,您需要注意以下几点:
    • 计算节点:本示例中,选择ecs.scch5s.16xlarge实例规格。

    • 软件配置:安装linpack 2018软件和intel-mpi 2018通信库。

    HPL

  3. 创建一个名为hpltest的sudo用户。具体操作,请参见创建用户

测试SCC集群的网络性能

  1. 在左侧导航栏,单击集群

  2. 集群页面,找到目标集群,单击远程连接

  3. 远程连接页面,输入集群用户名、登录密码和端口,单击ssh连接

  4. 通过以下测试样例,测试RDMA网络的峰值带宽。

    按照以下步骤,测试读带宽的峰值:

    1. 登录compute000节点,运行以下命令。

      ib_read_bw -a -q 20 --report_gbits   ##服务端compute000执行
    2. 登录compute001节点,运行以下命令。

      ib_read_bw -a -q 20 --report_gbits compute000  ##用户端compute001执行
      读带宽测试峰值

    按照以下步骤,测试写带宽的峰值:

    1. 登录compute000节点,运行以下命令。

      ib_write_bw -a -q 20 --report_gbits  ##服务端compute000执行
      
    2. 登录compute001节点,运行以下命令。

      ib_write_bw -a -q 20 --report_gbits compute000  ##用户端compute001执行
      写带宽测试峰值
  5. 通过以下测试样例,测试RDMA网络的延迟。

    按照以下步骤,测试RDMA网络的读延迟:

    1. 登录compute000节点,运行以下命令。

      ib_read_lat -a   ##服务端compute000执行
      
    2. 登录compute001节点,运行以下命令。

      ib_read_lat -F -a compute000  ##用户端compute001执行
      RoCE网络的读延迟

    按照以下步骤,测试RDMA网络的写延迟:

    1. 登录compute000节点,运行以下命令。

      ib_write_lat -a  ##服务端compute000执行
      
      
    2. 登录compute001节点,运行以下命令。

      ib_write_lat -F -a compute000  ##用户端compute001执行
      RoCE网络的写延迟

监测RDMA网络的实际带宽利用情况

  1. 在左侧导航栏,单击集群

  2. 集群页面,找到目标集群,单击远程连接

  3. 远程连接页面,输入root用户名、登录密码和端口,单击ssh连接

  4. 运行以下命令监测RDMA网络的实际带宽利用情况。

    rdma_monitor -s
    root

查看SCC集群节点的性能

  1. 在左侧导航栏,选择作业与性能管理 > E-HPC优化器

  2. 集群列表选择目标集群。

  3. 节点性能页签,选择对应的节点和指标即可查看集群节点的相关性能。

    优化器性能