集群概述

集群指运行高性能计算的节点集合,可以提供单节点不能提供的强大计算能力,拥有高性能、弹性扩展、稳定可靠等优点。本文介绍集群涉及的基本概念和功能。

节点

E-HPC集群中的每个节点是一台ECS实例。按节点功能分类,可以分为登录节点、管控节点和计算节点。各节点功能如下表所示:

节点

说明

登录节点

用于远程登录集群,进行相关操作的节点,操作包括软件调试、编译和安装,以及作业提交等。

管控节点

用于管理集群的节点,部署了调度服务和域账号服务。

  • 调度服务:主要作用是运行PBS或Slurm等调度工具的服务端,处理作业提交、管理调度等。

  • 域账号服务:集中管理E-HPC集群内用户信息。

重要

管控节点负责作业的管理调度和域账号解析,请勿在管控节点进行编译软件、上传下载打包数据等操作,以免影响业务稳定性。

计算节点

用于执行高性能计算作业的节点。

对于不同规模的集群,建议的管控节点配置和作业执行数量如下:

集群规模

管控节点配置建议

作业建议

计算节点数≤100个

  • vCPU≥16核

  • 内存≥64 GiB

  • 排队作业数量<5000条

  • 未完成作业数量<10000条

计算节点数≤500个

  • vCPU≥32核

  • 内存≥128 GiB

  • 排队作业数量<10000条

  • 未完成作业数量<20000条

计算节点数>500个

  • vCPU≥64核

  • 内存≥256 GiB

  • 排队作业数量<10000条

  • 未完成作业数量<20000条

镜像

镜像提供集群节点(即ECS实例)所需的信息,包括必要的操作系统和相关配置数据等。E-HPC支持以下几类镜像:

  • 公共镜像:阿里云官方镜像。

  • 自定义镜像:您使用ECS实例或者快照创建的镜像,或者从本地导入的镜像。

  • 共享镜像:其他阿里云账号共享给您的镜像。

  • 镜像市场:第三方服务商ISV(Independent Software Vendor)通过阿里云云市场授权提供的镜像。

  • 社区镜像:镜像提供者通过阿里云社区镜像平台发布的镜像。

  • 计算巢部署物:第三方服务商ISV通过阿里云计算巢发布的镜像。

重要
  • 可以选择的镜像由选择的地域可用区、所登录账号本身是否有相关镜像资源,以及选择的节点实例规格决定,以界面显示为准。

  • 选择不同的镜像,集群的调度器类型、域账号服务,以及支持的共享存储、软件会有所不同。具体请参见镜像支持的调度器、域账号服务和共享存储列表

更多信息,请参见镜像概述

调度器

调度器是集群上调度作业的软件。E-HPC支持的调度器如下:

类型

调度器

控制台显示

PBS

PBS Pro19

pbs19

PBS Pro18

pbs

说明

由选择的镜像决定安装的调度器软件版本。

OpenPBS 20

OpenPBS 22

Slurm

Slurm 22

slurm22

Slurm 20

slurm20

Slurm 19

slurm19

Slurm 17

slurm

GridEngine

Open Grid Scheduler(SGE)

opengridscheduler

其他

Deadline

deadline

说明

不同镜像支持的调度器不同,具体请参见镜像支持的调度器、域账号服务和共享存储列表

域账号服务

域账号服务用于管理集群用户。E-HPC支持以下两种域账号服务:

  • NIS:网络信息服务(Network Information Service),是一种集中身份管理的方式。您可以在NIS服务器上建立用户,当新节点加入到NIS中时,便可以使用NIS服务器中的用户来登录这个节点,而不需要在每个节点上都建立同样的用户。

  • LDAP:轻型目录访问协议(Lightweight Directory Access Protocol),在E-HPC中,LDAP被用来对用户进行身份权限认证。您可以在LDAP中对用户进行授权,分组,以创建具有不同的访问权限的用户。

说明

不同镜像支持的域账号服务不同,具体请参见镜像支持的调度器、域账号服务和共享存储列表

共享存储

E-HPC集群的用户数据、调度器信息、作业共享数据等信息均会存储在文件系统,以供集群所有节点共享访问。E-HPC支持以下几类文件系统:

  • NAS:包括通用型NAS和极速型NAS。

  • CPFS:支持CPFS-NFS和CPFS-POSIX两种挂载方式。

  • 其他:非阿里云文件存储,例如您自建的NAS存储。

说明

不同镜像支持的共享存储不同,具体请参见镜像支持的调度器、域账号服务和共享存储列表

镜像支持的调度器、域账号服务和共享存储列表

不同的镜像支持的调度器类型、域账号服务和共享存储类型有所不同,下表列出了公共镜像的支持情况。

说明
  • 在控制台创建集群时,可选的镜像、调度器以及域账号服务以控制台界面显示为准。

  • 下表中的Custom表示E-HPC不提供安装,由您自行安装。

  • CentOS 6和CentOS 8操作系统版本结束了生命周期(EOL),Linux社区已不再维护该操作系统版本,建议您切换操作系统。具体操作,请参见CentOS 6 EOL如何切换源CentOS 8 EOL如何切换源

公共镜像

支持的调度器

支持的域账号服务

支持的共享存储

  • CentOS 7.2 64位

  • CentOS 7.3 64位

  • CentOS 7.4 64位

  • CentOS 7.5 64位

  • CentOS 7.6 64位

  • CentOS 7.8 64位

  • CentOS 7.9 64位

  • CentOS 7.9 64位 UEFI版

  • PBS Pro18

  • PBS Pro19

  • Slurm 17

  • Slurm 19

  • Slurm 20

  • Slurm 22

  • Open Grid Scheduler(SGE)

  • Deadline

  • NIS

  • LDAP

  • 通用型NAS

  • 极速型NAS

  • CPFS-NFS

  • CPFS-POSIX

CentOS 8.0 64位

Open PBS 20

NIS

  • 通用型NAS

  • 极速型NAS

  • CPFS-NFS

CentOS 6.9 64位

  • PBS Pro18

  • Deadline

  • NIS

  • LDAP

  • 通用型NAS

  • 极速型NAS

CentOS 6.10 64位

Custom

Custom

  • 通用型NAS

  • 极速型NAS

Alibaba Cloud Linux 2.1903 LTS 64位

PBS Pro18

  • NIS

  • LDAP

  • 通用型NAS

  • 极速型NAS

  • CPFS-NFS

Alibaba Cloud Linux 3.2104 LTS 64位

Open Grid Scheduler(SGE)

NIS

  • 通用型NAS

  • 极速型NAS

  • CPFS-NFS

Alibaba Cloud Linux 3.2104 LTS 64位 ARM版

Open Grid Scheduler(SGE)

NIS

  • 通用型NAS

  • 极速型NAS

  • CPFS-NFS

Ubuntu 20.04 64位

Slurm 22

NIS

  • 通用型NAS

  • 极速型NAS

  • CPFS-NFS

Ubuntu 20.04 64位 ARM版

Slurm 22

NIS

  • 通用型NAS

  • 极速型NAS

  • CPFS-NFS

  • Windows Server 2022

  • Windows Server 2019

  • Windows Server 2016

  • Windows Server 2012 R2

  • Windows Server 2008 R2

Custom

Custom

Custom

用户

创建集群用户后,您才能在集群上提交、调试、运行作业。您可以创建两种不同权限的用户来使用集群。

  • 普通权限组:适用于只有提交、调试作业需求的普通用户。

  • sudo权限组:适用于需要管理集群的管理员,除提交、调试作业外,还可以执行sudo命令进行安装软件、重启节点等操作。

    重要

    root用户仅能在创建集群时初始化创建,不推荐使用root用户提交任何作业,避免作业脚本中的误操作导致E-HPC集群数据遭受破坏。

更多信息,请参见创建用户

软件

E-HPC提供了业界主流的科学计算应用、编译器运行时库、MPI通信库等软件,您可以根据需求安装使用。更多信息,请参见软件概述

集群状态

  • 创建中:集群创建初始状态,对应ECS实例创建。

  • 安装中:集群处于安装软件状态。

  • 初始化中:集群处于初始化阶段,包括初始化root用户等。

  • 运行中:集群创建完成后处于正常可用状态。

  • 异常:当管理节点被删除或停止、调度器软件退出时,集群状态为异常。您可以尝试修复集群,若修复无效后,请提交工单

  • 释放中:集群在停机释放过程中。