使用模板创建集群

E-HPC管理控制台提供了通过集群模板创建集群的功能。模板中定义了创建集群所需要的参数,如可用区、部署方式、镜像等。您可以将常用的集群配置参数保存为模板,以便后续可以使用模板快速创建集群。

前提条件

背景信息

集群可为E-HPC计算提供计算资源、存储资源等,用于后续提交作业、调度作业、存储作业结果、查看作业结果。创建和使用E-HPC集群前请了解以下内容:

  • 限制条件:一个地域下最多可创建3个集群,如需要创建多个集群,请提交工单

  • 费用说明:创建集群会产生一些费用,包括E-HPC服务费用和其他资源费用。具体费用说明请参见计费概述

  • 注意事项:创建E-HPC集群后,非特殊情况请勿使用云服务器管理控制台调整单个集群节点。建议您通过弹性高性能计算管理控制台操作。

操作步骤

  1. 打开模板化配置页面。

    1. 登录弹性高性能计算控制台

    2. 在顶部菜单栏左上角处,选择地域。

    3. 在左侧导航栏,选择集群

    4. 集群页面右上角,将鼠标悬浮在创建集群右侧的drop-down图标,单击模板化创建

  2. 基本配置区域,输入集群名称和登录密码。

  3. 在模板区域,配置模板参数。

    模板配置区域的各操作按钮说明如下:

    • 打开本地模板..png:导入本地保存的集群模板。

    • 保存模板..png:将集群模板保存到本地,方便后续使用

    • 选择模板..png:选择使用E-HPC提供的模板。

    • 模板-查看网络..png:查看已有的网络(VPC ID和交换机ID)和存储(NAS文件系统ID和挂载点)配置信息。

    • 模板-查询规格..png:查询支持的实例规格。

    本文使用以下模板作为示例,请根据实际需求修改参数。

    说明

    如果选择Batch Serverless模板创建Serverless集群,请参见创建Serverless集群

    [Global]
    zoneId=cn-shenzhen-a
    ecsChargeType=PostPaid
    
    [Node]
    deployMode=Standard
    ecsOrderComputeInstanceType=ecs.c6.large
    ecsOrderComputeCount=1
    ecsOrderManagerInstanceType=ecs.c6.large
    ecsOrderLoginInstanceType=ecs.c6.large
    systemDiskSize=40
    
    [Image]
    osTag=CentOS_7.6_64
    imageOwnerAlias=system
    
    [Network]
    vpcId=vpc-wz9lq2oynq8tia5h8****
    vSwitchId=vsw-wz992iw34x8on06he****
    securityGroupId=sg-bp13n61xsydodfyg****
    
    [Storage]
    volumeId=2bfe3480a3
    volumeMountpoint=2bfe348***-cs***.cn-shenzhen.nas.aliyuncs.com
    
    [Scheduler]
    schedulerType=pbs
    
    [Account]
    accountType=nis

    模板中可配置的参数说明如下:

    全局配置 [Global]

    参数名称

    是否必选

    示例值

    说明

    zoneId

    cn-hangzhou-i

    集群所属可用区,只影响创建集群时创建的管控节点、登录节点和计算节点的所属可用区。后续扩容或配置自动伸缩时可选择其他可用区。

    ecsChargeType

    PostPaid

    集群中节点的付费类型。取值范围:

    • PostPaid:按量付费。

    • PrePaid:包年包月。

    更多信息,请参见实例规格计费

    period

    1

    当节点付费类型为包年包月(ecsChargeType为PrePaid)时,节点的购买时长,单位和取值范围由periodUnit决定。取值范围:

    • 当periodUnit取值为Year时:1~3。

    • 当periodUnit取值为Month时:1~9。

    • 当periodUnit取值为Hour时:1。

    • 当periodUnit取值为Week时:1~4。

    periodUnit

    Year

    当节点付费类型为包年包月时,节点购买时长的单位。取值范围:

    • Year

    • Month

    • Hour

    • Week

    computeSpotStrategy

    NoSpot

    计算节点的竞价策略。取值范围:

    • NoSpot:正常按量付费节点。

    • SpotWithPriceLimit:设置上限价格的抢占式节点。

    • SpotAsPriceGo:系统自动出价,跟随当前市场实际价格的抢占式节点。

    computeSpotPriceLimit

    0.034

    当计算节点的竞价策略为SpotWithPriceLimit时,节点每小时最高价格。最大支持3位小数。

    clusterVersion

    2.0

    集群版本,默认为最新版本。

    clientVersion

    1.0.64

    集群客户端版本,默认为最新版本。建议不配置该参数。

    isHybridCluster

    false

    是否是混合云集群。取值范围:

    • true

    • false

    默认为false。

    location

    PublicCloud

    集群类型。取值范围:

    • 公共云集群:PublicCloud

    • 混合云集群:ProxyOnline

    • Deadline渲染集群:OnPremise

    默认为PublicCloud。

    节点配置 [Node]

    参数名称

    是否必选

    示例值

    说明

    deployMode

    Standard

    集群部署模式。取值范围:

    • Standard:2个管控节点(账号服务和调度服务分离部署)+1个登录节点+若干计算节点

    • Simple:1个管控节点(账号服务和调度服务一起部署)+1个登录节点+若干计算节点

    • Tiny:1个管控节点(账号服务、调度服务和登录服务一起部署)+若干计算节点

    默认值:Standard。

    systemDiskSize

    40

    系统盘大小。单位:GiB。

    取值范围:40~500。

    默认值:40。

    systemDiskType

    cloud_essd

    系统盘类型。取值范围:

    • cloud_essd:ESSD云盘。

    • cloud_ssd:SSD云盘。

    • cloud_efficiency:高效云盘。

    默认为cloud_essd。

    systemDiskLevel

    PL0

    系统盘类型为cloud_essd时,ESSD云盘的性能等级。取值范围:

    • PL0

    • PL1

    • PL2

    • PL3

    关于各等级云盘的性能数据,请参见ESSD云盘

    ecsOrderLoginInstanceType

    ecs.c7.xlarge

    登录节点的实例规格。不填写时默认和ecsOrderManagerInstanceType相同。

    ecsOrderManagerInstanceType

    ecs.c7.xlarge

    管控节点的实例规格。

    location为PublicCloud或ProxyOnline时必填。

    ecsOrderComputeInstanceType

    ecs.c7.xlarge

    计算节点的实例规格。不填写时默认和ecsOrderManagerInstanceType相同。

    ecsOrderLoginCount

    1

    登录节点数量。取值为1。

    ecsOrderComputeCount

    2

    计算节点数量。取值范围为1~99。

    computeEnableHt

    true

    计算节点是否支持超线程。取值范围:

    • true:支持。

    • false:不支持。

    默认值:true。

    ramRoleName

    AliyunECSInstanceForEHPCRole

    节点要绑定的实例RAM角色名称。

    ramNodeTypes

    [manager, login, compute]

    要绑定RAM角色的节点类型。取值范围:

    • deployMode为Standard时,取值范围为scheduler、account、login、compute,支持多选,多个取值间用半角逗号(,)隔开。

    • deployMode为Simple时,取值范围为manager、login、compute,支持多选,多个取值间用半角逗号(,)隔开。

    • deployMode为Tiny时,取值范围为manager、compute。

    localNodesCfg

    [{\"Role\":\"AccountManager\",\"IpAddress\":\"172.16.XX.XX\",\"AccountType\":\"custom\",\"HostName\":\"proxymgr\"},{\"Role\":\"ResourceManager\",\"IpAddress\":\"172.16.XX.XX\",\"SchedulerType\":\"custom\",\"HostName\":\"manager\"}]

    配置混合云集群的线下管理节点时,用于指定混合云集群连接的线下调度器或域账号服务,格式为字符串格式的JSON对象数组,对象参数包括:

    • Role:取值范围为AccountManager,ResourceManager。

    • IpAddress:服务器IP地址。

    • HostName:服务器主机名。

    • AccountType:域账号服务类型,取值范围为nis,ldap。

    • SchedulerType:调度器类型,取值范围为pbs,slurm,custom。

    镜像配置 [Image]

    参数名称

    是否必选

    示例值

    说明

    osTag

    CentOS_7.2_64

    操作系统镜像标签。您可以调用ListImages查询,从返回信息中获取支持的镜像标签。

    imageOwnerAlias

    system

    镜像类型。取值范围:

    • system:公共镜像

    • self:自定义镜像

    • others:共享镜像

    imageId

    m-m5egogbgwjj2n1******

    镜像ID。当imageOwnerAlias为self或others时必选。

    网络配置 [Network]

    参数名称

    是否必选

    示例值

    说明

    vpcId

    vpc-b3f3edefefeep0760yju****

    集群所属的VPC ID。

    vSwitchId

    vsw-bp1lfcjbfb099rrjn****

    VPC中交换机ID。

    securityGroupName

    ehpc-SecurityGroup

    新创建安全组时的安全组名称。

    如果没有指定安全组ID,则默认创建一个新的安全组。

    securityGroupId

    sg-bp13n61xsydodfyg****

    使用已有安全组时的安全组ID。

    withoutElasticIp

    false

    登录节点是否使用弹性公网IP。取值范围:

    • true:不分配

    • false:分配

    默认值:false。

    说明

    当deployMode为Tiny时,没有单独登录节点,则给管控节点分配弹性公网IP。

    sccClusterId

    hpc-m5e2qpb2cxfnet******

    SCC集群的RDMA网络ID(即超级计算集群ID),可在ECS管理控制台的超级计算集群页面获取。仅当计算节点使用SCC实例规格时生效。

    如果计算节点使用SCC实例规格但没有指定该参数,E-HPC将自动创建一个RDMA网络ID。

    存储配置 [Storage]

    参数名称

    是否必选

    示例值

    说明

    volumeType

    nas

    挂载的共享存储类型。目前仅支持nas。

    volumeProtocol

    NFS

    共享存储的协议类型。取值范围:

    • NFS

    • SMB

    默认值:NFS。

    volumeId

    008b64****

    NAS文件系统ID。

    remoteDirectory

    /

    NAS文件系统的远程目录。

    volumeMountOption

    -t nfs -o vers=4

    采用mount命令手动挂载NFS文件系统时的挂载参数

    volumeMountpoint

    008b64****-s****.cn-hangzhou.nas.aliyuncs.com

    NAS文件系统的挂载点。

    storageConfigByDirectory

    0

    是否给home目录和opt目录分别挂载不同的文件系统,取值范围:

    • 1:是

    • 0:否

    默认值:0。

    homeVolumeId

    008b64****

    home目录挂载的NAS文件系统ID,仅当storageConfigByDirectory为1时有效。

    homeVolumeMountpoint

    008b64****-s****.cn-hangzhou.nas.aliyuncs.com

    home目录挂载的NAS文件系统的挂载点,仅当storageConfigByDirectory为1时有效。

    homeRemoteDirectory

    /

    home目录挂载的NAS文件系统的远程目录,仅当storageConfigByDirectory为1时有效。

    optVolumeId

    00da34****

    opt目录挂载的NAS文件系统ID,仅当storageConfigByDirectory为1时有效。

    optVolumeMountpoint

    00da34****-a****.cn-hangzhou.nas.aliyuncs.com

    opt目录挂载的NAS文件系统的挂载点,仅当storageConfigByDirectory为1时有效。

    optRemoteDirectory

    /

    opt目录挂载的NAS文件系统的远程目录,仅当storageConfigByDirectory为1时有效。

    调度配置 [Scheduler]

    参数名称

    是否必选

    示例值

    说明

    schedulerType

    pbs

    调度器类型,isHybridCluster未设置或设置为false时必选。取值范围:

    • slurm

    • pbs

    • pbs19

    • slurm22

    • opengridengine

    jobQueue

    cpuworkq

    队列名。如果未配置,在创建集群时会默认创建一个队列,并将计算节点加入到该队列。

    域账户配置 [Account]

    参数名称

    是否必选

    示例值

    说明

    accountType

    nis

    域账号服务类型。取值范围:

    • nis

    • ldap

    默认值:nis。

    domain

    example.com

    本地集群域名。

    仅当AccoutType为Idap时,支持配置该参数。

    openldapParam

    "{\"LdapServerIp\": \"19.16.XX.XX\", \"BaseDn\":\" example.com\" }"

    创建混合云集群时,线下OpenLDAP服务器的配置参数。格式为JSON字符串,包含以下参数:

    • LdapServerIp:OpenLDAP服务器的IP地址。

    • BaseDn:OpenLDAP域名。

    winAdParam

    "{ \"AdUser\": \"Administrator\", \"AdUserPasswd\": \"pwd***\", \"AdDc\": \"example.com\", \"AdIp\": \"12.13.XX.XX\" }"

    对接AD服务器时的配置参数。格式为JSON字符串,包含以下参数:

    • AdUser:AD服务器的管理员用户。

    • AdUserPasswd:AD服务器的管理员用户的密码。

    • AdDc:AD域名。

    • AdIp:AD服务器的IP地址。

    软件配置 [Application]

    参数名称

    是否必选

    示例值

    说明

    postScriptUrl

    http://xxx.xxxx.com/post_exec.sh

    安装后执行脚本的下载地址。

    postScriptArgs

    -v -p xxx

    安装后执行脚本的参数。

    remoteVisEnable

    false

    是否开启远程可视化。取值范围:

    • true:开启。

    • false:不开启。

    默认值:false。

    plugin

    {"pluginMod": "oss","pluginLocalPath": "/opt/plugin","pluginOssPath":"https://bucket.oss-cn-hangzhou.aliyuncs.com/plugin/plugin.tgz"}

    调度器插件模式。仅当schedulerType为custom生效。

    格式为JSON字符串,包含以下参数:

    • pluginMod:插件模式,支持以下两种模式:

      • oss模式:将从OSS上下载插件解压到本地pluginLocalPath中。

      • image模式:默认插件已经放置到pluginLocalPath。

    • pluginLocalPath:插件存放的本地路径,建议在oss模式下选择共享存储目录,image模式下选择非共享存储目录。

    • pluginOssPath:插件放置在OSS上的远程路径,仅当pluginMod等于oss生效。

  4. 在页面右上角,阅读并选中右上角的《E-HPC服务条款》,单击确认

执行结果

创建后,在集群页面,您可以查看新创建的集群。若新创建的集群的状态变更为运行中,且集群中所有节点均处于运行中状态,则表示集群创建成功。