E-HPC管理控制台提供了通过集群模板创建集群的功能。模板中定义了创建集群所需要的参数,如可用区、部署方式、镜像等。您可以将常用的集群配置参数保存为模板,以便后续可以使用模板快速创建集群。
前提条件
-
已创建服务关联角色。首次登录E-HPC控制台,系统会提示您创建E-HPC服务关联角色。
-
已创建存储资源。E-HPC集群支持挂载NAS和CPFS文件系统,可按需选择。
背景信息
集群可为E-HPC计算提供计算资源、存储资源等,用于后续提交作业、调度作业、存储作业结果、查看作业结果。创建和使用E-HPC集群前请了解以下内容:
操作步骤
-
打开模板化配置页面。
-
登录弹性高性能计算控制台。
-
在顶部菜单栏左上角处,选择地域。
-
在左侧导航栏,选择集群。
-
在集群页面右上角,将鼠标悬浮在创建集群右侧的
图标,单击模板化创建 。
-
-
在基本配置区域,输入集群名称和登录密码。
-
在模板区域,配置模板参数。
模板配置区域的各操作按钮说明如下:
-
:导入本地保存的集群模板。 -
:将集群模板保存到本地,方便后续使用 -
:选择使用E-HPC提供的模板。 -
:查看已有的网络(VPC ID和交换机ID)和存储(NAS文件系统ID和挂载点)配置信息。 -
:查询支持的实例规格。
本文使用以下模板作为示例,请根据实际需求修改参数。
说明如果选择Batch Serverless模板创建Serverless集群,请参见创建Serverless集群。
[Global] zoneId=cn-shenzhen-a ecsChargeType=PostPaid [Node] deployMode=Standard ecsOrderComputeInstanceType=ecs.c6.large ecsOrderComputeCount=1 ecsOrderManagerInstanceType=ecs.c6.large ecsOrderLoginInstanceType=ecs.c6.large systemDiskSize=40 [Image] osTag=CentOS_7.6_64 imageOwnerAlias=system [Network] vpcId=vpc-wz9lq2oynq8tia5h8**** vSwitchId=vsw-wz992iw34x8on06he**** securityGroupId=sg-bp13n61xsydodfyg**** [Storage] volumeId=2bfe3480a3 volumeMountpoint=2bfe348***-cs***.cn-shenzhen.nas.aliyuncs.com [Scheduler] schedulerType=pbs [Account] accountType=nis模板中可配置的参数说明如下:
全局配置 [Global]
参数名称
是否必选
示例值
说明
zoneId
是
cn-hangzhou-i
集群所属可用区,只影响创建集群时创建的管控节点、登录节点和计算节点的所属可用区。后续扩容或配置自动伸缩时可选择其他可用区。
ecsChargeType
是
PostPaid
集群中节点的付费类型。取值范围:
-
PostPaid:按量付费。
-
PrePaid:包年包月。
更多信息,请参见实例规格计费。
period
否
1
当节点付费类型为包年包月(ecsChargeType为PrePaid)时,节点的购买时长,单位和取值范围由periodUnit决定。取值范围:
-
当periodUnit取值为Year时:1~3。
-
当periodUnit取值为Month时:1~9。
-
当periodUnit取值为Hour时:1。
-
当periodUnit取值为Week时:1~4。
periodUnit
否
Year
当节点付费类型为包年包月时,节点购买时长的单位。取值范围:
-
Year
-
Month
-
Hour
-
Week
computeSpotStrategy
否
NoSpot
计算节点的竞价策略。取值范围:
-
NoSpot:正常按量付费节点。
-
SpotWithPriceLimit:设置上限价格的抢占式节点。
-
SpotAsPriceGo:系统自动出价,跟随当前市场实际价格的抢占式节点。
computeSpotPriceLimit
否
0.034
当计算节点的竞价策略为SpotWithPriceLimit时,节点每小时最高价格。最大支持3位小数。
clusterVersion
否
2.0
集群版本,默认为最新版本。
clientVersion
否
1.0.64
集群客户端版本,默认为最新版本。建议不配置该参数。
isHybridCluster
否
false
是否是混合云集群。取值范围:
-
true
-
false
默认为false。
location
否
PublicCloud
集群类型。取值范围:
-
公共云集群:PublicCloud
-
混合云集群:ProxyOnline
-
Deadline渲染集群:OnPremise
默认为PublicCloud。
节点配置 [Node]
参数名称
是否必选
示例值
说明
deployMode
是
Standard
集群部署模式。取值范围:
-
Standard:2个管控节点(账号服务和调度服务分离部署)+1个登录节点+若干计算节点
-
Simple:1个管控节点(账号服务和调度服务一起部署)+1个登录节点+若干计算节点
-
Tiny:1个管控节点(账号服务、调度服务和登录服务一起部署)+若干计算节点
默认值:Standard。
systemDiskSize
是
40
系统盘大小。单位:GiB。
取值范围:40~500。
默认值:40。
systemDiskType
否
cloud_essd
系统盘类型。取值范围:
-
cloud_essd:ESSD云盘。
-
cloud_ssd:SSD云盘。
-
cloud_efficiency:高效云盘。
默认为cloud_essd。
systemDiskLevel
否
PL0
系统盘类型为cloud_essd时,ESSD云盘的性能等级。取值范围:
-
PL0
-
PL1
-
PL2
-
PL3
关于各等级云盘的性能数据,请参见ESSD云盘。
ecsOrderLoginInstanceType
否
ecs.c7.xlarge
登录节点的实例规格。不填写时默认和ecsOrderManagerInstanceType相同。
ecsOrderManagerInstanceType
否
ecs.c7.xlarge
管控节点的实例规格。
location为PublicCloud或ProxyOnline时必填。
ecsOrderComputeInstanceType
否
ecs.c7.xlarge
计算节点的实例规格。不填写时默认和ecsOrderManagerInstanceType相同。
ecsOrderLoginCount
否
1
登录节点数量。取值为1。
ecsOrderComputeCount
否
2
计算节点数量。取值范围为1~99。
computeEnableHt
否
true
计算节点是否支持超线程。取值范围:
-
true:支持。
-
false:不支持。
默认值:true。
ramRoleName
否
AliyunECSInstanceForEHPCRole
节点要绑定的实例RAM角色名称。
ramNodeTypes
否
[manager, login, compute]
要绑定RAM角色的节点类型。取值范围:
-
deployMode为Standard时,取值范围为scheduler、account、login、compute,支持多选,多个取值间用半角逗号(,)隔开。
-
deployMode为Simple时,取值范围为manager、login、compute,支持多选,多个取值间用半角逗号(,)隔开。
-
deployMode为Tiny时,取值范围为manager、compute。
localNodesCfg
否
[{\"Role\":\"AccountManager\",\"IpAddress\":\"172.16.XX.XX\",\"AccountType\":\"custom\",\"HostName\":\"proxymgr\"},{\"Role\":\"ResourceManager\",\"IpAddress\":\"172.16.XX.XX\",\"SchedulerType\":\"custom\",\"HostName\":\"manager\"}]
配置混合云集群的线下管理节点时,用于指定混合云集群连接的线下调度器或域账号服务,格式为字符串格式的JSON对象数组,对象参数包括:
-
Role:取值范围为AccountManager,ResourceManager。
-
IpAddress:服务器IP地址。
-
HostName:服务器主机名。
-
AccountType:域账号服务类型,取值范围为nis,ldap。
-
SchedulerType:调度器类型,取值范围为pbs,slurm,custom。
镜像配置 [Image]
参数名称
是否必选
示例值
说明
osTag
是
CentOS_7.2_64
操作系统镜像标签。您可以调用ListImages查询,从返回信息中获取支持的镜像标签。
imageOwnerAlias
是
system
镜像类型。取值范围:
-
system:公共镜像
-
self:自定义镜像
-
others:共享镜像
imageId
否
m-m5egogbgwjj2n1******
镜像ID。当imageOwnerAlias为self或others时必选。
网络配置 [Network]
参数名称
是否必选
示例值
说明
vpcId
是
vpc-b3f3edefefeep0760yju****
集群所属的VPC ID。
vSwitchId
是
vsw-bp1lfcjbfb099rrjn****
VPC中交换机ID。
securityGroupName
否
ehpc-SecurityGroup
新创建安全组时的安全组名称。
如果没有指定安全组ID,则默认创建一个新的安全组。
securityGroupId
否
sg-bp13n61xsydodfyg****
使用已有安全组时的安全组ID。
withoutElasticIp
否
false
登录节点是否使用弹性公网IP。取值范围:
-
true:不分配
-
false:分配
默认值:false。
说明当deployMode为Tiny时,没有单独登录节点,则给管控节点分配弹性公网IP。
sccClusterId
否
hpc-m5e2qpb2cxfnet******
SCC集群的RDMA网络ID(即超级计算集群ID),可在ECS管理控制台的超级计算集群页面获取。仅当计算节点使用SCC实例规格时生效。
如果计算节点使用SCC实例规格但没有指定该参数,E-HPC将自动创建一个RDMA网络ID。
存储配置 [Storage]
参数名称
是否必选
示例值
说明
volumeType
否
nas
挂载的共享存储类型。目前仅支持nas。
volumeProtocol
否
NFS
共享存储的协议类型。取值范围:
-
NFS
-
SMB
默认值:NFS。
volumeId
否
008b64****
NAS文件系统ID。
remoteDirectory
否
/
NAS文件系统的远程目录。
volumeMountOption
否
-t nfs -o vers=4
采用mount命令手动挂载NFS文件系统时的挂载参数
volumeMountpoint
否
008b64****-s****.cn-hangzhou.nas.aliyuncs.com
NAS文件系统的挂载点。
storageConfigByDirectory
否
0
是否给home目录和opt目录分别挂载不同的文件系统,取值范围:
-
1:是
-
0:否
默认值:0。
homeVolumeId
否
008b64****
home目录挂载的NAS文件系统ID,仅当storageConfigByDirectory为1时有效。
homeVolumeMountpoint
否
008b64****-s****.cn-hangzhou.nas.aliyuncs.com
home目录挂载的NAS文件系统的挂载点,仅当storageConfigByDirectory为1时有效。
homeRemoteDirectory
否
/
home目录挂载的NAS文件系统的远程目录,仅当storageConfigByDirectory为1时有效。
optVolumeId
否
00da34****
opt目录挂载的NAS文件系统ID,仅当storageConfigByDirectory为1时有效。
optVolumeMountpoint
否
00da34****-a****.cn-hangzhou.nas.aliyuncs.com
opt目录挂载的NAS文件系统的挂载点,仅当storageConfigByDirectory为1时有效。
optRemoteDirectory
否
/
opt目录挂载的NAS文件系统的远程目录,仅当storageConfigByDirectory为1时有效。
调度配置 [Scheduler]
参数名称
是否必选
示例值
说明
schedulerType
否
pbs
调度器类型,isHybridCluster未设置或设置为false时必选。取值范围:
-
slurm
-
pbs
-
pbs19
-
slurm22
-
opengridengine
jobQueue
否
cpuworkq
队列名。如果未配置,在创建集群时会默认创建一个队列,并将计算节点加入到该队列。
域账户配置 [Account]
参数名称
是否必选
示例值
说明
accountType
否
nis
域账号服务类型。取值范围:
-
nis
-
ldap
默认值:nis。
domain
否
example.com
本地集群域名。
仅当AccoutType为Idap时,支持配置该参数。
openldapParam
否
"{\"LdapServerIp\": \"19.16.XX.XX\", \"BaseDn\":\" example.com\" }"
创建混合云集群时,线下OpenLDAP服务器的配置参数。格式为JSON字符串,包含以下参数:
-
LdapServerIp:OpenLDAP服务器的IP地址。
-
BaseDn:OpenLDAP域名。
winAdParam
否
"{ \"AdUser\": \"Administrator\", \"AdUserPasswd\": \"pwd***\", \"AdDc\": \"example.com\", \"AdIp\": \"12.13.XX.XX\" }"
对接AD服务器时的配置参数。格式为JSON字符串,包含以下参数:
-
AdUser:AD服务器的管理员用户。
-
AdUserPasswd:AD服务器的管理员用户的密码。
-
AdDc:AD域名。
-
AdIp:AD服务器的IP地址。
软件配置 [Application]
参数名称
是否必选
示例值
说明
postScriptUrl
否
http://xxx.xxxx.com/post_exec.sh
安装后执行脚本的下载地址。
postScriptArgs
否
-v -p xxx
安装后执行脚本的参数。
remoteVisEnable
否
false
是否开启远程可视化。取值范围:
-
true:开启。
-
false:不开启。
默认值:false。
plugin
否
{"pluginMod": "oss","pluginLocalPath": "/opt/plugin","pluginOssPath":"https://bucket.oss-cn-hangzhou.aliyuncs.com/plugin/plugin.tgz"}
调度器插件模式。仅当schedulerType为custom生效。
格式为JSON字符串,包含以下参数:
-
pluginMod:插件模式,支持以下两种模式:
-
oss模式:将从OSS上下载插件解压到本地pluginLocalPath中。
-
image模式:默认插件已经放置到pluginLocalPath。
-
-
pluginLocalPath:插件存放的本地路径,建议在oss模式下选择共享存储目录,image模式下选择非共享存储目录。
-
pluginOssPath:插件放置在OSS上的远程路径,仅当pluginMod等于oss生效。
-
-
在页面右上角,阅读并选中右上角的《E-HPC服务条款》,单击确认。
执行结果
创建后,在集群页面,您可以查看新创建的集群。若新创建的集群的状态变更为运行中,且集群中所有节点均处于运行中状态,则表示集群创建成功。