E-HPC管理控制台提供了通过集群模板创建集群的功能。模板中定义了创建集群所需要的参数,如可用区、部署方式、镜像等。您可以将常用的集群配置参数保存为模板,以便后续可以使用模板快速创建集群。
前提条件
已创建服务关联角色。首次登录E-HPC控制台,系统会提示您创建E-HPC服务关联角色。
已创建专有网络VPC和交换机。具体操作,请参见创建专有网络和创建交换机。
已创建存储资源。E-HPC集群支持挂载NAS和CPFS文件系统,可按需选择。
背景信息
集群可为E-HPC计算提供计算资源、存储资源等,用于后续提交作业、调度作业、存储作业结果、查看作业结果。创建和使用E-HPC集群前请了解以下内容:
限制条件:一个地域下最多可创建3个集群,如需要创建多个集群,请提交工单。
费用说明:创建集群会产生一些费用,包括E-HPC服务费用和其他资源费用。具体费用说明请参见计费概述。
注意事项:创建E-HPC集群后,非特殊情况请勿使用云服务器管理控制台调整单个集群节点。建议您通过弹性高性能计算管理控制台操作。
操作步骤
打开模板化配置页面。
登录弹性高性能计算控制台。
在顶部菜单栏左上角处,选择地域。
在左侧导航栏,选择集群。
在集群页面右上角,将鼠标悬浮在创建集群右侧的
图标,单击模板化创建 。
在基本配置区域,输入集群名称和登录密码。
在模板区域,配置模板参数。
模板配置区域的各操作按钮说明如下:
本文使用以下模板作为示例,请根据实际需求修改参数。
[Global]
zoneId=cn-shenzhen-a
ecsChargeType=PostPaid
[Node]
deployMode=Standard
ecsOrderComputeInstanceType=ecs.c6.large
ecsOrderComputeCount=1
ecsOrderManagerInstanceType=ecs.c6.large
ecsOrderLoginInstanceType=ecs.c6.large
systemDiskSize=40
[Image]
osTag=CentOS_7.6_64
imageOwnerAlias=system
[Network]
vpcId=vpc-wz9lq2oynq8tia5h8****
vSwitchId=vsw-wz992iw34x8on06he****
securityGroupId=sg-bp13n61xsydodfyg****
[Storage]
volumeId=2bfe3480a3
volumeMountpoint=2bfe348***-cs***.cn-shenzhen.nas.aliyuncs.com
[Scheduler]
schedulerType=pbs
[Account]
accountType=nis
模板中可配置的参数说明如下:
全局配置 [Global]
参数名称 | 是否必选 | 示例值 | 说明 |
zoneId | 是 | cn-hangzhou-i | 集群所属可用区,只影响创建集群时创建的管控节点、登录节点和计算节点的所属可用区。后续扩容或配置自动伸缩时可选择其他可用区。 |
ecsChargeType | 是 | PostPaid | 集群中节点的付费类型。取值范围: PostPaid:按量付费。 PrePaid:包年包月。
更多信息,请参见实例规格计费。 |
period | 否 | 1 | 当节点付费类型为包年包月(ecsChargeType为PrePaid)时,节点的购买时长,单位和取值范围由periodUnit决定。取值范围: |
periodUnit | 否 | Year | 当节点付费类型为包年包月时,节点购买时长的单位。取值范围: |
computeSpotStrategy | 否 | NoSpot | 计算节点的竞价策略。取值范围: |
computeSpotPriceLimit | 否 | 0.034 | 当计算节点的竞价策略为SpotWithPriceLimit时,节点每小时最高价格。最大支持3位小数。 |
clusterVersion | 否 | 2.0 | 集群版本,默认为最新版本。 |
clientVersion | 否 | 1.0.64 | 集群客户端版本,默认为最新版本。建议不配置该参数。 |
isHybridCluster | 否 | false | 是否是混合云集群。取值范围: 默认为false。 |
location | 否 | PublicCloud | 集群类型。取值范围: 公共云集群:PublicCloud 混合云集群:ProxyOnline Deadline渲染集群:OnPremise
默认为PublicCloud。 |
节点配置 [Node]
参数名称 | 是否必选 | 示例值 | 说明 |
deployMode | 是 | Standard | 集群部署模式。取值范围: Standard:2个管控节点(账号服务和调度服务分离部署)+1个登录节点+若干计算节点 Simple:1个管控节点(账号服务和调度服务一起部署)+1个登录节点+若干计算节点 Tiny:1个管控节点(账号服务、调度服务和登录服务一起部署)+若干计算节点
默认值:Standard。 |
systemDiskSize | 是 | 40 | 系统盘大小。单位:GiB。 取值范围:40~500。 默认值:40。 |
systemDiskType | 否 | cloud_essd | 系统盘类型。取值范围: cloud_essd:ESSD云盘。 cloud_ssd:SSD云盘。 cloud_efficiency:高效云盘。
默认为cloud_essd。 |
systemDiskLevel | 否 | PL0 | 系统盘类型为cloud_essd时,ESSD云盘的性能等级。取值范围: 关于各等级云盘的性能数据,请参见ESSD云盘。 |
ecsOrderLoginInstanceType | 否 | ecs.c7.xlarge | 登录节点的实例规格。不填写时默认和ecsOrderManagerInstanceType相同。 |
ecsOrderManagerInstanceType | 否 | ecs.c7.xlarge | 管控节点的实例规格。 location为PublicCloud或ProxyOnline时必填。 |
ecsOrderComputeInstanceType | 否 | ecs.c7.xlarge | 计算节点的实例规格。不填写时默认和ecsOrderManagerInstanceType相同。 |
ecsOrderLoginCount | 否 | 1 | 登录节点数量。取值为1。 |
ecsOrderComputeCount | 否 | 2 | 计算节点数量。取值范围为1~99。 |
computeEnableHt | 否 | true | 计算节点是否支持超线程。取值范围: 默认值:true。 |
ramRoleName | 否 | AliyunECSInstanceForEHPCRole | 节点要绑定的实例RAM角色名称。 |
ramNodeTypes | 否 | [manager, login, compute] | 要绑定RAM角色的节点类型。取值范围: deployMode为Standard时,取值范围为scheduler、account、login、compute,支持多选,多个取值间用半角逗号(,)隔开。 deployMode为Simple时,取值范围为manager、login、compute,支持多选,多个取值间用半角逗号(,)隔开。 deployMode为Tiny时,取值范围为manager、compute。
|
localNodesCfg | 否 | [{\"Role\":\"AccountManager\",\"IpAddress\":\"172.16.XX.XX\",\"AccountType\":\"custom\",\"HostName\":\"proxymgr\"},{\"Role\":\"ResourceManager\",\"IpAddress\":\"172.16.XX.XX\",\"SchedulerType\":\"custom\",\"HostName\":\"manager\"}] | 配置混合云集群的线下管理节点时,用于指定混合云集群连接的线下调度器或域账号服务,格式为字符串格式的JSON对象数组,对象参数包括: Role:取值范围为AccountManager,ResourceManager。 IpAddress:服务器IP地址。 HostName:服务器主机名。 AccountType:域账号服务类型,取值范围为nis,ldap。 SchedulerType:调度器类型,取值范围为pbs,slurm,custom。
|
镜像配置 [Image]
参数名称 | 是否必选 | 示例值 | 说明 |
osTag | 是 | CentOS_7.2_64 | 操作系统镜像标签。取值范围: Alibaba Cloud Linux 2.1903 LTS 64 bit CentOS_7.2_64 CentOS_8.0_64 Ubuntu 20.04 64 bit Ubuntu 20.04 64 bit ARM Edition Windows Server 2022 DataCenter Edition 64bit Chinese Edition Windows Server 2022 DataCenter Edition 64bit English Edition Windows Server 2019 Data Center Edition 64bit Chinese Edition Windows Server 2019 Data Center Edition 64bit English Edition Windows Server 2016 Data Center Edition 64bit Chinese Edition Windows Server 2016 Data Center Edition 64bit English Edition
|
imageOwnerAlias | 是 | system | 镜像类型。取值范围: system:公共镜像 self:自定义镜像 others:共享镜像
|
imageId | 否 | m-m5egogbgwjj2n1****** | 镜像ID。当imageOwnerAlias为self或others时必选。 |
网络配置 [Network]
参数名称 | 是否必选 | 示例值 | 说明 |
vpcId | 是 | vpc-b3f3edefefeep0760yju**** | 集群所属的VPC ID。 |
vSwitchId | 是 | vsw-bp1lfcjbfb099rrjn**** | VPC中交换机ID。 |
securityGroupName | 否 | ehpc-SecurityGroup | 新创建安全组时的安全组名称。 如果没有指定安全组ID,则默认创建一个新的安全组。 |
securityGroupId | 否 | sg-bp13n61xsydodfyg**** | 使用已有安全组时的安全组ID。 |
withoutElasticIp | 否 | false | 登录节点是否使用弹性公网IP。取值范围: 默认值:false。
说明 当deployMode为Tiny时,没有单独登录节点,则给管控节点分配弹性公网IP。 |
sccClusterId | 否 | hpc-m5e2qpb2cxfnet****** | SCC集群的RDMA网络ID(即超级计算集群ID),可在ECS管理控制台的超级计算集群页面获取。仅当计算节点使用SCC实例规格时生效。 如果计算节点使用SCC实例规格但没有指定该参数,E-HPC将自动创建一个RDMA网络ID。 |
存储配置 [Storage]
参数名称 | 是否必选 | 示例值 | 说明 |
volumeType | 否 | nas | 挂载的共享存储类型。目前仅支持nas。 |
volumeProtocol | 否 | NFS | 共享存储的协议类型。取值范围: 默认值:NFS。 |
volumeId | 否 | 008b64**** | NAS文件系统ID。 |
remoteDirectory | 否 | / | NAS文件系统的远程目录。 |
volumeMountOption | 否 | -t nfs -o vers=4 | 采用mount命令手动挂载NFS文件系统时的挂载参数 |
volumeMountpoint | 否 | 008b64****-s****.cn-hangzhou.nas.aliyuncs.com | NAS文件系统的挂载点。 |
storageConfigByDirectory | 否 | 0 | 是否给home目录和opt目录分别挂载不同的文件系统,取值范围: 默认值:0。 |
homeVolumeId | 否 | 008b64**** | home目录挂载的NAS文件系统ID,仅当storageConfigByDirectory为1时有效。 |
homeVolumeMountpoint | 否 | 008b64****-s****.cn-hangzhou.nas.aliyuncs.com | home目录挂载的NAS文件系统的挂载点,仅当storageConfigByDirectory为1时有效。 |
homeRemoteDirectory | 否 | / | home目录挂载的NAS文件系统的远程目录,仅当storageConfigByDirectory为1时有效。 |
optVolumeId | 否 | 00da34**** | opt目录挂载的NAS文件系统ID,仅当storageConfigByDirectory为1时有效。 |
optVolumeMountpoint | 否 | 00da34****-a****.cn-hangzhou.nas.aliyuncs.com | opt目录挂载的NAS文件系统的挂载点,仅当storageConfigByDirectory为1时有效。 |
optRemoteDirectory | 否 | / | opt目录挂载的NAS文件系统的远程目录,仅当storageConfigByDirectory为1时有效。 |
调度配置 [Scheduler]
参数名称 | 是否必选 | 示例值 | 说明 |
schedulerType | 否 | pbs | 调度器类型,isHybridCluster未设置或设置为false时必选。取值范围: slurm pbs pbs19 slurm22 opengridengine
|
jobQueue | 否 | cpuworkq | 队列名。如果未配置,在创建集群时会默认创建一个队列,并将计算节点加入到该队列。 |
域账户配置 [Account]
参数名称 | 是否必选 | 示例值 | 说明 |
accountType | 否 | nis | 域账号服务类型。取值范围: 默认值:nis。 |
domain | 否 | example.com | 本地集群域名。 仅当AccoutType为Idap时,支持配置该参数。 |
openldapParam | 否 | "{\"LdapServerIp\": \"19.16.XX.XX\", \"BaseDn\":\" example.com\" }" | 创建混合云集群时,线下OpenLDAP服务器的配置参数。格式为JSON字符串,包含以下参数: |
winAdParam | 否 | "{ \"AdUser\": \"Administrator\", \"AdUserPasswd\": \"pwd***\", \"AdDc\": \"example.com\", \"AdIp\": \"12.13.XX.XX\" }" | 对接AD服务器时的配置参数。格式为JSON字符串,包含以下参数: |
软件配置 [Application]
参数名称 | 是否必选 | 示例值 | 说明 |
postScriptUrl | 否 | http://xxx.xxxx.com/post_exec.sh | 安装后执行脚本的下载地址。 |
postScriptArgs | 否 | -v -p xxx | 安装后执行脚本的参数。 |
remoteVisEnable | 否 | false | 是否开启远程可视化。取值范围: 默认值:false。 |
plugin | 否 | {"pluginMod": "oss","pluginLocalPath": "/opt/plugin","pluginOssPath":"https://bucket.oss-cn-hangzhou.aliyuncs.com/plugin/plugin.tgz"} | 调度器插件模式。仅当schedulerType为custom生效。 格式为JSON字符串,包含以下参数: |
在页面右上角,阅读并选中右上角的《E-HPC服务条款》,单击确认。
执行结果
创建后,在集群页面,您可以查看新创建的集群。若新创建的集群的状态变更为运行中,且集群中所有节点均处于运行中状态,则表示集群创建成功。