本入门教程介绍如何通过E-HPC控制台快速创建一个公共云标准版的集群并进行管理,帮助您快速上手使用弹性高性能计算产品。
前提条件
创建集群
单击前往创建集群页面。
在创建集群页面,完成以下各步骤的参数配置。
集群配置
基础设置
配置项
示例
说明
地域
华东 1(杭州)
选择集群所在地域。
网络及可用区
专有网络:vpc-bp1opxu1zkhn00g****
交换机:vsw-bp1ljgg5tjrs62n64****
选择集群所在的专有网络和交换机。
说明集群内的节点会占用所选交换机的IP地址,请确保交换机下的可用IP地址数大于所需的节点数量。
安全组
选择自动创建普通安全组。
安全组用于控制集群及其节点的出入流量。系统自动创建的安全组会自动添加规则,保证集群内的各节点通信。
请根据需要选择自动创建的安全组类型。关于普通安全组和企业安全组的差异,请参见普通安全组与企业级安全组。
集群类型
本文演示如何创建公共云标准版集群,该类型集群由一个管理节点和多个计算节点组成。您需要选择集群部署的调度器类型,并配置管理节点。
配置项
示例
说明
系列
选择标准版。
集群的系列。
部署模式
选择公共云集群。
集群的部署模式。
集群类型
选择SLURM。
选择集群的调度器类型。支持HPC场景常用调度器,包括Slurm、OpenPBS和Grid Engine。
管理节点
规格族:通用型g6
实例规格:ecs.g6.large
镜像:CentOS 7.6 64 位
存储:系统盘40G、ESSD云盘PL0
超线程:启用
管理节点是一台部署了调度器和域账号服务的ECS实例。请根据业务场景和集群规模,为管理节点选择合适的配置。
付费模式
选择如何为管理节点付费。具体计费说明,请参见实例规格计费。
按量付费:后付费,按实际使用时长计费,不支持抢占式实例。
包年包月。预付费,按周、月、年计费。
实例规格
选择合适的管理节点规格。对于不同规模的集群,推荐的管理节点规格如下:
如果计算节点数≤100个,管理节点规格建议vCPU≥16核,内存≥64 GiB。
如果计算节点数≤500个,管理节点规格建议vCPU≥32核,内存≥128 GiB。
如果计算节点数>500个,管理节点规格建议vCPU≥64核,内存≥256 GiB。
镜像
选择用于部署管理节点环境的镜像。不同镜像支持的调度器不同,以界面显示为准。
存储
选择管理节点的系统盘规格,以及是否挂载数据盘。关于云盘的类型和性能等信息,请参见云盘概述。
超线程
默认开启CPU超线程,如果您的业务场景需要获得更好的性能表现,可以关闭CPU超线程。
计算节点与队列
基本设置
配置项
示例
说明
队列自动伸缩
不开启
选择是否开启自动伸缩。开启后,可进一步按需选择是否开启自动扩容和自动缩容。
开启自动伸缩后,系统会根据配置信息和实时负载,自动增加或者减少计算节点。
队列节点数
5
设置队列包含的节点数量。
如果没有开启队列自动伸缩,请配置队列初始的计算节点数量。
如果开启了队列自动伸缩,请配置队列允许的最小节点数和最大节点数。
重要如果将最小节点数修改为非0值,集群缩容时该队列会保留最小节点数量的节点,即使是空闲节点也不会被释放。请您谨慎设置最小节点数,以免导致自动缩容后队列中存在空闲节点,造成资源浪费和不必要的经济损失。
选择队列节点配置
配置项
示例
说明
节点间互联
选择VPC网络。
选择节点之间网络连通方式。
VPC:节点之间通过VPC网络进行通信。
eRDMA:如果节点使用支持ERI的规格,则节点之间可以通过eRDMA网络进行通信。
说明仅部分节点规格支持ERI,更多信息,请参见eRDMA概述和在企业级实例上配置eRDMA。
虚拟交换机
vsw-bp1ljgg5tjrs62n64****
选择节点所属的交换机。系统会自动从可用的交换机网段中为节点分配IP地址。
实例规格组
规格族:通用型g6
实例规格:ecs.g6.large
镜像:CentOS 7.6 64 位
存储:系统盘40G、ESSD云盘PL0
超线程:启用
单击添加实例规格,选择节点的规格。
如果未开启自动伸缩,则仅支持添加一个实例规格;如果开启了自动伸缩,则支持添加多个实例规格。
共享文件存储
配置项
示例
说明
类型
选择通用型NAS。
选择要挂载的文件系统类型。
通用型NAS:挂载通用型NAS文件系统。
极速型NAS:挂载极速型NAS文件系统。
并行文件CPFS:使用NFS协议挂载CPFS文件系统。
文件系统
0e9104****(容量型 NFS)
选择要挂载的文件系统ID和挂载点,请确保该文件系统还有可用的挂载点余量。
文件系统目录
0e9104****-tpd33.cn.hangzhou.nas.aliyuncs.com
输入要挂载的文件系统目录。
挂载选项
选择NFS v3挂载。
选择挂载协议。
软件与服务组件
无需设置,默认已配置一个登录节点。
确认配置
确认配置信息,并配置集群名称和登录凭证。
配置项
示例
说明
集群名称
E-HPC-test
输入名称。该名称会在集群列表中显示,便于您查找识别。
登录凭证
选择自定义密码。
选择登录集群的凭证。目前仅支持自定义密码。
设置密码、确认密码
Ehpc12****
输入登录集群的密码。集群中所有节点默认使用该密码作为root用户的登录密码。
阅读服务与协议,确认费用信息,然后单击创建集群。
在集群列表页面,如果出现名为
E-HPC-test
且状态为运行中的集群,则表示该集群已成功创建。
创建用户
在集群中提交作业前,您需要为集群新增用户。
在用户管理页面,单击新增用户。
在弹出的对话框中,完成用户信息配置,然后单击确定。
配置项
示例
说明
用户名
test.user
用户名称,自定义输入。
限制为6~30个字符。
以英文开头。
英文字母数字或符号
(.)
组成。
用户权限
sudo权限组
普通权限组:适用于只有提交、调试作业需求的普通用户。
sudo权限组:适用于需要管理集群的管理员。除提交、调试作业外,还可以执行sudo命令进行安装软件、重启节点等操作。
重要请谨慎分配sudo权限。具有sudo权限的用户如果操作错误(如误删除E-HPC软件栈模块),会导致集群异常。
密码、确认密码
Ehpc12****
根据页面提示,设置用户使用密码登录集群时,需要输入的密码。
扩容集群
在集群列表页面,单击目标集群名称。
在左侧导航栏,选择
。单击添加节点,在添加节点页面配置以下参数。
基础设置
配置项
示例
说明
目标队列
comp
选择该集群内已创建的队列。
节点数
10
设置需要扩容的节点数量。
节点配置
配置项
示例
说明
选择节点类型
新建节点
仅支持选择新建节点。
节点间互联
VPC网络
选择节点之间网络连通方式。
VPC网络:节点之间通过VPC网络进行通信。
eRDMA网络:如果节点使用支持ERI的规格,则节点之间可以通过eRDMA网络进行通信。
说明仅部分节点规格支持ERI,更多信息,请参见eRDMA概述和在企业级实例上配置eRDMA。
虚拟交换机
vsw-bp1ljgg5tjrs62n64****
选择节点所属的交换机。系统会自动从可用的交换机网段中为节点分配IP地址。
实例规格组
规格族:通用型g6
实例规格:ecs.g6.large
镜像:CentOS 7.6 64 位
存储:系统盘40G、ESSD云盘PL0
超线程:启用
单击添加实例规格,选择节点的规格。
如果未开启自动伸缩,则仅支持添加一个实例规格;如果开启了自动伸缩,则支持添加多个实例规格。
选中我已知晓:添加节点默认开启“删除保护”功能,不受队列伸缩配置影响,然后单击确认添加。
您可以在节点列表中查看已扩容节点的状态。当该节点状态为运行中,说明扩容集群已完成。
提交作业
在集群详情页面左侧导航栏,单击作业管理。
单击创建作业。
在创建作业页面,根据实际需要完成相关配置,然后单击确认创建。
说明请注意以下配置,未提及的配置请保持默认。更多配置详情,请参见提交作业。
配置项
是否必选
示例
说明
作业名称
是
testjob
该作业的名称。
调度器队列
是
comp
选择集群中执行作业任务的队列。
执行命令
是
/home/test.user/testjob.slurm
向调度器提交的作业执行命令,可以是脚本文件,也可以是一段命令文本。分为以下两种情况:
脚本文件可执行,填写相对路径,如
/home/test.user/testjob.slurm
。脚本文件没有可执行权限,则需要填写执行命令,如:
/opt/mpi/bin/mpirun /home/test/job.slurm
。
删除节点
对于不再需要的计算节点,您可以执行删除操作将节点从集群中移除。
在节点列表中选中一个或多个节点。
在列表下方单击删除。
确认提示信息,然后单击确定。
释放集群
当您不再需要某个集群提供服务时,您可以释放该集群。
在集群详情页面,单击右上角的更多操作,然后单击释放集群。
在弹出对话框中,单击确认。
相关文档
您可以通过集群模板快速创建一个预装GROMACS软件的集群,并通过E-HPC Portal快速提交作业。具体操作,请参见快速开启GROMACS分析任务。