全部产品

集群概述

集群指运行高性能计算的节点集合,可以提供单节点不能提供的强大计算能力,拥有高性能、弹性扩展、稳定可靠等优点。集群包含弹性公网IP、集群节点、调度器、域账号、集群用户、运行软件等资源。本文介绍集群涉及的基本概念和功能。

集群节点

集群有标准和精简两种部署方式,每个集群包含管控节点、计算节点和登录节点。每个节点是一台ECS实例。

  • 标准:登录节点、管控节点和计算节点分离部署。

  • 精简:登录节点和管控节点混合部署在一个节点上,计算节点分离部署。

各节点功能如下表所示:

节点

说明

登录节点

E-HPC集群普通用户能够操作的唯一节点类型。您可在登录节点上进行软件调试、编译和安装,以及作业提交等操作。

管控节点

包括调度服务器和域帐号服务器。

  • 调度服务器:主要作用是运行PBS或Slurm等调度工具的服务端,处理作业提交、管理调度等。

  • 域帐户服务器:集中管理E-HPC集群内用户信息。

计算节点

用于执行高性能计算作业的节点。

集群状态

  • 创建中:集群创建初始状态,对应ECS实例创建。

  • 安装中:集群处于安装软件状态。

  • 初始化中:集群处于初始化阶段,包括初始化root用户等。

  • 运行中:集群创建完成后处于可用状态,是集群唯一可以正常使用的状态。

  • 异常:当管理节点被删除或停止、调度器软件退出时,集群状态为异常。您可以尝试修复进群,若修复无效后,请提交工单

  • 释放中:集群在停机释放过程中。

镜像

镜像提供集群所有节点所需的信息。E-HPC支持使用公共镜像、自定义镜像、共享镜像来创建集群。选择不同的镜像,集群的调度器类型和软件包会随之发生改变,部分镜像不支持选择软件包。更多信息,请参见镜像概述

调度器

调度器是集群上调度作业的软件。E-HPC支持多种调度器,但不同的镜像支持的调度器类型有所不同,具体支持情况以控制台为准。

镜像

支持的调度器

CentOS_7.2/7.3/7.4/7.5/7.6_64

PBS、Slurm、Open Grid Scheduler、Deadline

CentOS_8.0_64

PBS

CentOS_6.9_64

说明

CentOS 6操作系统版本结束了生命周期(EOL),Linux社区已不再维护该操作系统版本。建议您升级操作系统至CentOS 7及以上,具体操作,请参见CentOS 6 EOL如何切换源

PBS、Grid Engine、Cube、Deadline

Windows Server 2019/2016/2012/2008 64位

Custom

用户

创建集群用户后,您才能在集群上提交、调试、运行作业。您可以创建两种不同权限的用户来使用集群。更多信息,请参见用户管理

E-HPC支持创建两种权限的用户:

  • 普通权限组:适用于只有提交、调试作业需求的普通用户。

  • sudo权限组:适用于需要管理集群的管理员,除提交、调试作业外,还可以执行sudo命令进行安装软件、重启节点等操作。

    说明

    root用户仅能在创建集群时初始化创建,不推荐使用root用户提交任何作业,避免作业脚本中的误操作导致E-HPC集群数据遭受破坏。

域账号服务

E-HPC支持创建NIS和LDAP两种域账号服务。

  • NIS:网络信息服务(Network Information Service),是一种集中身份管理的方式。您可以在NIS服务器上建立用户,当新节点加入到NIS中时,便可以使用NIS服务器中的用户来登录这个节点,而不需要在每个节点上都建立同样的用户。

  • LDAP:轻型目录访问协议(Lightweight Directory Access Protocol),在E-HPC中,LDAP被用来对用户进行身份权限认证。您可以在LDAP中对用户进行授权,分组,以创建具有不同的访问权限的用户。

软件管理

E-HPC提供了业界主流的科学计算应用、编译器运行时库、MPI通信库等软件,您可以根据需求安装使用。更多信息,请参见软件管理