集群指运行高性能计算的节点集合,可以提供单节点不能提供的强大计算能力,拥有高性能、弹性扩展、稳定可靠等优点。本文介绍集群涉及的基本概念和功能。
节点
E-HPC集群中的每个节点是一台ECS实例。按节点功能分类,可以分为登录节点、管控节点和计算节点。各节点功能如下表所示:
节点 | 说明 |
登录节点 | 用于远程登录集群,进行相关操作的节点,操作包括软件调试、编译和安装,以及作业提交等。 |
管控节点 | 用于管理集群的节点,部署了调度服务和域账号服务。
重要 管控节点负责作业的管理调度和域账号解析,请勿在管控节点进行编译软件、上传下载打包数据等操作,以免影响业务稳定性。 |
计算节点 | 用于执行高性能计算作业的节点。 |
对于不同规模的集群,建议的管控节点配置和作业执行数量如下:
集群规模 | 管控节点配置建议 | 作业建议 |
计算节点数≤100个 |
|
|
计算节点数≤500个 |
|
|
计算节点数>500个 |
|
|
镜像
镜像提供集群节点(即ECS实例)所需的信息,包括必要的操作系统和相关配置数据等。E-HPC支持以下几类镜像:
公共镜像:阿里云官方镜像。
自定义镜像:您使用ECS实例或者快照创建的镜像,或者从本地导入的镜像。
共享镜像:其他阿里云账号共享给您的镜像。
镜像市场:第三方服务商ISV(Independent Software Vendor)通过阿里云云市场授权提供的镜像。
社区镜像:镜像提供者通过阿里云社区镜像平台发布的镜像。
计算巢部署物:第三方服务商ISV通过阿里云计算巢发布的镜像。
可以选择的镜像由选择的地域可用区、所登录账号本身是否有相关镜像资源,以及选择的节点实例规格决定,以界面显示为准。
选择不同的镜像,集群的调度器类型、域账号服务,以及支持的共享存储、软件会有所不同。具体请参见镜像支持的调度器、域账号服务和共享存储列表。
更多信息,请参见镜像概述。
调度器
调度器是集群上调度作业的软件。E-HPC支持的调度器如下:
类型 | 调度器 | 控制台显示 |
PBS | PBS Pro19 | pbs19 |
PBS Pro18 | pbs 说明 由选择的镜像决定安装的调度器软件版本。 | |
OpenPBS 20 | ||
OpenPBS 22 | ||
Slurm | Slurm 22 | slurm22 |
Slurm 20 | slurm20 | |
Slurm 19 | slurm19 | |
Slurm 17 | slurm | |
GridEngine | Open Grid Scheduler(SGE) | opengridscheduler |
其他 | Deadline | deadline |
不同镜像支持的调度器不同,具体请参见镜像支持的调度器、域账号服务和共享存储列表。
域账号服务
域账号服务用于管理集群用户。E-HPC支持以下两种域账号服务:
NIS:网络信息服务(Network Information Service),是一种集中身份管理的方式。您可以在NIS服务器上建立用户,当新节点加入到NIS中时,便可以使用NIS服务器中的用户来登录这个节点,而不需要在每个节点上都建立同样的用户。
LDAP:轻型目录访问协议(Lightweight Directory Access Protocol),在E-HPC中,LDAP被用来对用户进行身份权限认证。您可以在LDAP中对用户进行授权,分组,以创建具有不同的访问权限的用户。
不同镜像支持的域账号服务不同,具体请参见镜像支持的调度器、域账号服务和共享存储列表。
共享存储
E-HPC集群的用户数据、调度器信息、作业共享数据等信息均会存储在文件系统,以供集群所有节点共享访问。E-HPC支持以下几类文件系统:
NAS:包括通用型NAS和极速型NAS。
CPFS:支持CPFS-NFS和CPFS-POSIX两种挂载方式。
其他:非阿里云文件存储,例如您自建的NAS存储。
不同镜像支持的共享存储不同,具体请参见镜像支持的调度器、域账号服务和共享存储列表。
镜像支持的调度器、域账号服务和共享存储列表
不同的镜像支持的调度器类型、域账号服务和共享存储类型有所不同,下表列出了公共镜像的支持情况。
在控制台创建集群时,可选的镜像、调度器以及域账号服务以控制台界面显示为准。
下表中的Custom表示E-HPC不提供安装,由您自行安装。
CentOS 6和CentOS 8操作系统版本结束了生命周期(EOL),Linux社区已不再维护该操作系统版本,建议您切换操作系统。具体操作,请参见CentOS 6 EOL如何切换源或CentOS 8 EOL如何切换源。
公共镜像 | 支持的调度器 | 支持的域账号服务 | 支持的共享存储 |
|
|
|
|
CentOS 8.0 64位 | Open PBS 20 | NIS |
|
CentOS 6.9 64位 |
|
|
|
CentOS 6.10 64位 | Custom | Custom |
|
Alibaba Cloud Linux 2.1903 LTS 64位 | PBS Pro18 |
|
|
Alibaba Cloud Linux 3.2104 LTS 64位 | Open Grid Scheduler(SGE) | NIS |
|
Alibaba Cloud Linux 3.2104 LTS 64位 ARM版 | Open Grid Scheduler(SGE) | NIS |
|
Ubuntu 20.04 64位 | Slurm 22 | NIS |
|
Ubuntu 20.04 64位 ARM版 | Slurm 22 | NIS |
|
| Custom | Custom | Custom |
用户
创建集群用户后,您才能在集群上提交、调试、运行作业。您可以创建两种不同权限的用户来使用集群。
普通权限组:适用于只有提交、调试作业需求的普通用户。
sudo权限组:适用于需要管理集群的管理员,除提交、调试作业外,还可以执行sudo命令进行安装软件、重启节点等操作。
重要root用户仅能在创建集群时初始化创建,不推荐使用root用户提交任何作业,避免作业脚本中的误操作导致E-HPC集群数据遭受破坏。
更多信息,请参见创建用户。
软件
E-HPC提供了业界主流的科学计算应用、编译器运行时库、MPI通信库等软件,您可以根据需求安装使用。更多信息,请参见软件概述。
集群状态
创建中:集群创建初始状态,对应ECS实例创建。
安装中:集群处于安装软件状态。
初始化中:集群处于初始化阶段,包括初始化root用户等。
运行中:集群创建完成后处于正常可用状态。
异常:当管理节点被删除或停止、调度器软件退出时,集群状态为异常。您可以尝试修复集群,若修复无效后,请提交工单。
释放中:集群在停机释放过程中。