创建公共云托管版集群

托管集群的管理节点由E-HPC负责创建并维护,您只需关注计算节点的配置,专注于业务需求。本文介绍如何在控制台上创建托管集群。

背景信息

托管集群由以下几部分组成:

  • 计算节点:由多个ECS实例组成,可以按队列分组管理,支持扩缩容,用于运行作业。

  • 登录节点:对应一个ECS实例,部署了Login组件,且绑定了EIP,用于远程连接集群。

  • 共享存储:支持挂载NAS和CPFS文件系统,用于共享数据,包括作业数据、软件数据等。

重要

更多关于E-HPC集群的相关信息,请参见集群概述

前提条件

操作步骤

步骤一:打开创建集群页面

单击前往创建集群页面

步骤二:配置集群

集群配置页面,完成集群网络、类型、调度器等配置。

  • 基础设置

    配置项

    说明

    地域

    选择集群所在地域。

    网络及可用区

    选择集群所在的专有网络和交换机。

    说明

    集群内的节点会占用所选交换机的IP地址,请确保交换机下的可用IP地址数大于所需的节点数量。

    安全组

    安全组用于控制集群及其节点的出入流量。系统自动创建的安全组会自动添加规则,保证集群内的各节点通信。

    请根据需要选择自动创建的安全组类型。关于普通安全组和企业安全组的差异,请参见普通安全组与企业级安全组

  • 集群类型

    该类型集群由一个管理节点(E-HPC托管)和多个计算节点组成。您无需配置管理节点。

    配置项

    说明

    系列

    选择托管版

    部署模式

    选择公共云集群

    集群类型

    选择集群的调度器类型。仅支持选择Slurm调度器。

  • 自定义选项

    配置项

    说明

    调度器

    选择要部署的调度器软件。托管版集群仅支持Slurm 22。

    域账号

    选择集群部署的域账户服务。托管版集群仅支持NIS。

    域名解析

    保持默认。

    集群最大节点数

    集群允许包含的最大节点数量,与集群最大核数共同控制集群规模。

    集群最大核数

    集群允许包含的最大核数,与集群最大节点数共同控制集群规模。

    集群删除保护

    设置是否开启集群删除保护功能。开启后,需要关闭功能才能释放集群,从而避免误释放集群。

  • 资源组

    资源组用于分组管理资源,具体请参见资源组。集群默认属于默认资源组,您可以按需修改。

步骤三:配置计算节点与队列

计算节点与队列页面,完成队列配置。

队列用于分组管理计算节点,运行作业时可以指定队列。集群默认存在1个队列(comp队列),您可以单击添加更多队列来添加队列。单个队列需要配置以下信息:

  • 基本设置

    配置项

    说明

    队列自动伸缩

    选择是否开启自动伸缩。开启后,可进一步按需选择是否开启自动扩容自动缩容

    开启自动伸缩后,系统会根据配置信息和实时负载,自动增加或者减少计算节点。

    队列节点数

    设置队列包含的节点数量。

    • 如果没有开启队列自动伸缩,请配置队列初始的计算节点数量。

    • 如果开启了队列自动伸缩,请配置队列允许的最小节点数和最大节点数。

      重要

      如果将最小节点数修改为非0值,集群缩容时该队列会保留最小节点数量的节点,即使是空闲节点也不会被释放。请您谨慎设置最小节点数,以免导致自动缩容后队列中存在空闲节点,造成资源浪费和不必要的经济损失。

  • 选择队列节点配置

    如果开启了队列自动伸缩,或者没有开启队列自动伸缩但初始节点数不为0时,需配置以下信息,以便系统可以创建计算节点。

    配置项

    说明

    节点间互联

    选择节点之间网络连通方式。

    • VPC网络:节点之间通过VPC网络进行通信。

    • eRDMA网络:如果节点使用支持ERI的规格,则节点之间可以通过eRDMA网络进行通信。

      说明

      仅部分节点规格支持ERI,更多信息,请参见eRDMA概述在企业级实例上配置eRDMA

    虚拟交换机

    选择节点所属的交换机。系统会自动从可用的交换机网段中为节点分配IP地址。

    实例规格组

    单击添加实例规格,选择节点的规格。

    如果未开启自动伸缩,则仅支持添加一个实例规格;如果开启了自动伸缩,则支持添加多个实例规格。

    重要

    您可以选择多个虚拟交换机和多个实例规格作为备选,避免因库存问题导致实例创建失败。创建计算节点时,系统会从第一个交换机所在可用区开始,按照实例规格顺序尝试创建,直到创建出满足所需节点数量的计算节点。最终创建成功的实例的规格可能随库存变化而不同。

  • 自动伸缩

    配置项

    说明

    伸缩策略

    选择伸缩策略。目前仅支持供应优先策略,表示会按照配置的交换机顺序,从对应可用区依次尝试创建符合规格要求的计算节点。

    单次最大伸缩节点数

    每轮扩容或缩容周期最多增加或减少的节点数量。默认为0,表示不限制最大数量。

    如果您对使用成本有要求,可以设置该值,确保扩容的节点数量不超出预期。

    主机名前缀

    节点主机名的开头字符,用以标记区分节点。

    主机名后缀

    节点主机名的结尾字符,用以标记区分节点。

    主机RAM角色

    为节点绑定RAM角色,使得节点可以获得权限访问阿里云服务。

    建议您选择系统创建的默认角色AliyunECSInstanceForEHPCRole。

步骤四:配置共享文件存储

共享文件存储页面,完成存储配置。

默认情况下,管理节点的/home/opt将挂载文件系统,作为共享存储目录。如果您想要为其他目录挂载文件系统,可单击添加更多存储,并完成相关配置。单个目录需要配置的文件系统信息如下:

说明

/home/opt目录暂不支持挂载不同的文件系统目录。

配置项

说明

类型

选择要挂载的文件系统类型。

  • 通用型NAS:挂载通用型NAS文件系统。

  • 极速型NAS:挂载极速型NAS文件系统。

  • 并行文件CPFS:使用NFS协议挂载CPFS文件系统。

文件系统

选择要挂载的文件系统ID和挂载点,请确保该文件系统还有可用的挂载点余量。

文件系统目录

输入要挂载的文件系统目录。

挂载选项

选择挂载协议。

步骤五:配置软件与服务组件

软件与服务组件页面,完成软件和服务组件配置。

  • 单击添加软件,在弹出的对话框中选择需要安装的软件。E-HPC提供了HPC行业常用的软件,您可以按需选择。

  • 单击添加服务组件,在弹出的对话框中选择服务组件,并配置组件参数。

    说明

    目前仅支持Login组件。

    公共云集群默认配置了Login组件,用于通过公网远程连接集群。组件参数说明如下:

    配置

    配置项

    说明

    Login组件自定义参数

    SSH

    设置通过SSH连接集群时,对应的端口号、协议,以及允许的IP网段。

    VNC

    设置通过VNC连接集群时,对应的端口号、协议,以及允许的IP网段。

    CLIENT

    设置通过客户端连接集群时,对应的端口号、协议,以及允许的IP网段。

    组件部署资源

    EIP实例

    为部署Login组件的ECS实例绑定EIP,以便可以通过公网连接集群。支持自动创建或选择已有EIP。

    ECS实例

    设置用于部署Login组件的ECS实例的规格。

步骤六:确认配置

确认配置页面,确认配置信息,并配置集群名称和登录凭证。

配置项

说明

集群名称

输入名称。该名称会在集群列表中显示,便于您查找识别。

集群免密

root用户从管理节点切换到计算节点时,是否可以免密登录。

重要

开启该功能,将配置root用户从管理节点到所有计算节点的单向免密登录方式,但不支持从计算节点到管理节点的免密登录,请谨慎操作。

登录凭证

选择登录集群的凭证。目前仅支持自定义密码

设置密码确认密码

输入登录集群的密码。集群中所有节点默认使用该密码作为root用户的登录密码。

配置完成后,阅读服务于协议,确认费用信息,然后单击创建集群

相关文档

创建集群后,您需要创建用户来提交作业。具体操作,请参见用户管理作业概述