托管集群的管理节点由E-HPC负责创建并维护,您只需关注计算节点的配置,专注于业务需求。本文介绍如何在控制台上创建托管集群。
背景信息
托管集群由以下几部分组成:
计算节点:由多个ECS实例组成,可以按队列分组管理,支持扩缩容,用于运行作业。
登录节点:对应一个ECS实例,部署了Login组件,且绑定了EIP,用于远程连接集群。
共享存储:支持挂载NAS和CPFS文件系统,用于共享数据,包括作业数据、软件数据等。
创建E-HPC集群时,系统会自动创建ECS实例等资源,可能会产生相关费用。更多信息,请参见计费概述。
创建E-HPC集群后,非特殊情况请勿使用云服务器ECS控制台调整单个集群节点。建议您通过弹性高性能计算控制台操作。
更多关于E-HPC集群的相关信息,请参见集群概述。
前提条件
操作步骤
步骤一:打开创建集群页面
单击前往创建集群页面。
步骤二:配置集群
在集群配置页面,完成集群网络、类型、调度器等配置。
基础设置
配置项
说明
地域
选择集群所在地域。
网络及可用区
选择集群所在的专有网络和交换机。
说明集群内的节点会占用所选交换机的IP地址,请确保交换机下的可用IP地址数大于所需的节点数量。
安全组
安全组用于控制集群及其节点的出入流量。系统自动创建的安全组会自动添加规则,保证集群内的各节点通信。
请根据需要选择自动创建的安全组类型。关于普通安全组和企业安全组的差异,请参见普通安全组与企业级安全组。
集群类型
该类型集群由一个管理节点(E-HPC托管)和多个计算节点组成。您无需配置管理节点。
配置项
说明
系列
选择托管版。
部署模式
选择公共云集群。
集群类型
选择集群的调度器类型。仅支持选择Slurm调度器。
自定义选项
配置项
说明
调度器
选择要部署的调度器软件。托管版集群仅支持Slurm 22。
域账号
选择集群部署的域账户服务。托管版集群仅支持NIS。
域名解析
保持默认。
集群最大节点数
集群允许包含的最大节点数量,与集群最大核数共同控制集群规模。
集群最大核数
集群允许包含的最大核数,与集群最大节点数共同控制集群规模。
集群删除保护
设置是否开启集群删除保护功能。开启后,需要关闭功能才能释放集群,从而避免误释放集群。
资源组
资源组用于分组管理资源,具体请参见资源组。集群默认属于默认资源组,您可以按需修改。
步骤三:配置计算节点与队列
在计算节点与队列页面,完成队列配置。
队列用于分组管理计算节点,运行作业时可以指定队列。集群默认存在1个队列(comp队列),您可以单击添加更多队列来添加队列。单个队列需要配置以下信息:
基本设置
配置项
说明
队列自动伸缩
选择是否开启自动伸缩。开启后,可进一步按需选择是否开启自动扩容和自动缩容。
开启自动伸缩后,系统会根据配置信息和实时负载,自动增加或者减少计算节点。
队列节点数
设置队列包含的节点数量。
如果没有开启队列自动伸缩,请配置队列初始的计算节点数量。
如果开启了队列自动伸缩,请配置队列允许的最小节点数和最大节点数。
重要如果将最小节点数修改为非0值,集群缩容时该队列会保留最小节点数量的节点,即使是空闲节点也不会被释放。请您谨慎设置最小节点数,以免导致自动缩容后队列中存在空闲节点,造成资源浪费和不必要的经济损失。
选择队列节点配置
如果开启了队列自动伸缩,或者没有开启队列自动伸缩但初始节点数不为0时,需配置以下信息,以便系统可以创建计算节点。
配置项
说明
节点间互联
选择节点之间网络连通方式。
VPC网络:节点之间通过VPC网络进行通信。
eRDMA网络:如果节点使用支持ERI的规格,则节点之间可以通过eRDMA网络进行通信。
说明仅部分节点规格支持ERI,更多信息,请参见eRDMA概述和在企业级实例上配置eRDMA。
虚拟交换机
选择节点所属的交换机。系统会自动从可用的交换机网段中为节点分配IP地址。
实例规格组
单击添加实例规格,选择节点的规格。
如果未开启自动伸缩,则仅支持添加一个实例规格;如果开启了自动伸缩,则支持添加多个实例规格。
重要您可以选择多个虚拟交换机和多个实例规格作为备选,避免因库存问题导致实例创建失败。创建计算节点时,系统会从第一个交换机所在可用区开始,按照实例规格顺序尝试创建,直到创建出满足所需节点数量的计算节点。最终创建成功的实例的规格可能随库存变化而不同。
自动伸缩
配置项
说明
伸缩策略
选择伸缩策略。目前仅支持供应优先策略,表示会按照配置的交换机顺序,从对应可用区依次尝试创建符合规格要求的计算节点。
单次最大伸缩节点数
每轮扩容或缩容周期最多增加或减少的节点数量。默认为0,表示不限制最大数量。
如果您对使用成本有要求,可以设置该值,确保扩容的节点数量不超出预期。
主机名前缀
节点主机名的开头字符,用以标记区分节点。
主机名后缀
节点主机名的结尾字符,用以标记区分节点。
主机RAM角色
为节点绑定RAM角色,使得节点可以获得权限访问阿里云服务。
建议您选择系统创建的默认角色AliyunECSInstanceForEHPCRole。
步骤四:配置共享文件存储
在共享文件存储页面,完成存储配置。
默认情况下,管理节点的/home
和/opt
将挂载文件系统,作为共享存储目录。如果您想要为其他目录挂载文件系统,可单击添加更多存储,并完成相关配置。单个目录需要配置的文件系统信息如下:
/home
和/opt
目录暂不支持挂载不同的文件系统目录。
配置项 | 说明 |
类型 | 选择要挂载的文件系统类型。
|
文件系统 | 选择要挂载的文件系统ID和挂载点,请确保该文件系统还有可用的挂载点余量。 |
文件系统目录 | 输入要挂载的文件系统目录。 |
挂载选项 | 选择挂载协议。 |
步骤五:配置软件与服务组件
在软件与服务组件页面,完成软件和服务组件配置。
单击添加软件,在弹出的对话框中选择需要安装的软件。E-HPC提供了HPC行业常用的软件,您可以按需选择。
单击添加服务组件,在弹出的对话框中选择服务组件,并配置组件参数。
说明目前仅支持Login组件。
公共云集群默认配置了Login组件,用于通过公网远程连接集群。组件参数说明如下:
配置
配置项
说明
Login组件自定义参数
SSH
设置通过SSH连接集群时,对应的端口号、协议,以及允许的IP网段。
VNC
设置通过VNC连接集群时,对应的端口号、协议,以及允许的IP网段。
CLIENT
设置通过客户端连接集群时,对应的端口号、协议,以及允许的IP网段。
组件部署资源
EIP实例
为部署Login组件的ECS实例绑定EIP,以便可以通过公网连接集群。支持自动创建或选择已有EIP。
ECS实例
设置用于部署Login组件的ECS实例的规格。
步骤六:确认配置
在确认配置页面,确认配置信息,并配置集群名称和登录凭证。
配置项 | 说明 |
集群名称 | 输入名称。该名称会在集群列表中显示,便于您查找识别。 |
集群免密 | root用户从管理节点切换到计算节点时,是否可以免密登录。 重要 开启该功能,将配置root用户从管理节点到所有计算节点的单向免密登录方式,但不支持从计算节点到管理节点的免密登录,请谨慎操作。 |
登录凭证 | 选择登录集群的凭证。目前仅支持自定义密码。 |
设置密码、确认密码 | 输入登录集群的密码。集群中所有节点默认使用该密码作为root用户的登录密码。 |
配置完成后,阅读服务于协议,确认费用信息,然后单击创建集群。