使用向导创建集群
创建集群时,您需要配置集群的硬件配置、软件配置、基础配置等信息。本文介绍如何在E-HPC控制台使用向导创建集群。
前提条件
已创建服务关联角色。首次登录E-HPC控制台,系统会提示您创建E-HPC服务关联角色。
已创建存储资源。E-HPC集群支持挂载NAS和CPFS文件系统,可按需选择。
背景信息
集群可为E-HPC计算提供计算资源、存储资源等,用于后续提交作业、调度作业、存储作业结果、查看作业结果。创建和使用E-HPC集群前请了解以下内容:
步骤一:配置硬件信息
创建集群时,您必须配置集群的硬件信息。硬件决定了集群的性能,包括集群所处地域、集群部署方式、不同类型节点数量、网络类型、共享存储等。
您可以根据您的业务需求选择合适的硬件参数。
登录弹性高性能计算控制台。
在顶部菜单栏左上角处,选择地域。
在左侧导航栏,单击集群。
在集群页面右上角,单击创建集群。
在硬件配置页面,填写硬件配置信息。
配置项
说明
可用区
在下拉列表中选择集群的可用区。
说明为保证E-HPC节点间的网络通讯效率,所有开通的节点均位于同一地域同一可用区,请参见地域和可用区。
付费类型
集群各节点的计费方式,其中不包括弹性公网IP、NAS存储的费用。
包年包月:按周、月或年购买及续费,为预付费模式。
按量付费:按实际开通时长以小时为单位进行收费,为后付费模式。
抢占式实例:仅计算节点是抢占式实例,管控节点和登录节点是按量付费实例,为后付费模式。
更多信息,请参见计费方式概述。
部署方式
集群的部署方式,可选值:
标准:登录节点、管控节点和计算节点分离部署。
精简:登录节点、管控节点混合部署在一台实例上,计算节点分离部署。
重要如果需要使用SGE(Open Grid Scheduler)调度器,则集群必须采用精简方式部署。
各类节点规格和数量
根据选择的部署方式,配置各类节点的规格和数量。
请根据业务需求选择合适的规格。例如:您要使用E-HPC集群进行分子动力学计算,可以选择GPU规格来加速核心计算。关于如何选择节点的实例规格,请参见产品规格和选型最佳实践。
说明如需创建基于倚天芯片平台的集群,请选择相应的实例规格,例如ecs.g8m.large。该功能目前正在邀测中,如需使用,请前往邀测页面申请。
对于不同规模的集群,推荐的管控节点规格如下:
如果计算节点数≤100,管控节点规格建议vCPU≥16核,内存≥64 GiB。
如果计算节点数≤500,管控节点规格建议vCPU≥32核,内存≥128 GiB。
如果计算节点数>500,管控节点规格建议vCPU≥64核,内存≥256 GiB。
登录节点通常会被配置为开发环境,需要为集群所有用户提供软件开发调试所需的资源及测试环境,因此推荐登录节点选择与计算节点配置一致或内存配比更大的实例。
系统盘
所有节点系统盘的云盘类型和容量,取值范围:40~2000 GB。
说明500 GB以上需要申请才能使用,请提交工单。
展开高级配置,配置网络、存储等参数。
配置项
说明
授权实例配置
功能启用
为节点绑定RAM角色,使得节点可以使用相关角色权限访问阿里云产品。
重要该功能默认关闭,如需使用,请提交工单。
工单处理完成后,请根据您操作的账号类型进行如下操作:
阿里云账号(主账号):单击前往RAM进行授权,授权用户使用系统已创建的默认角色。
RAM用户(子账号):使用阿里云账号(主账号)登录RAM控制台,选择如下任一方式对RAM用户进行授权。
新增如下自定义权限策略,并将该自定义权限策略赋予RAM用户。具体操作,请参见创建自定义权限策略和为RAM用户授权。
{ "Version": "1", "Statement": [ { "Effect": "Allow", "Action": [ "ram:PassRole", "ram:ListRoles" ], "Resource": "*" }, { "Effect": "Allow", "Action": "ecs:AttachInstanceRamRole", "Resource": "*" } ] }
直接为RAM用户赋予AliyunRAMFullAccess权限。
AliyunRAMFullAccess权限为管理RAM的权限,即管理用户以及授权的权限,该权限的范围大于手动新增的自定义权限策略。具体操作,请参见为RAM用户授权。
角色名称
节点要绑定的RAM角色。建议您选择系统创建的默认角色AliyunECSInstanceForEHPCRole。
节点类型
要绑定RAM角色的节点。节点类型包括:
调度器节点
域账号节点
登录节点
计算节点
说明如果选中了计算节点,后续扩容的计算节点会自动绑定此处配置的RAM角色。
资源组配置
资源组
集群节点所在资源组。您可以使用资源组对您账号下多种集群节点进行集中的分组管理。
网络配置
弹性公网IP
弹性公网IP是可以独立购买和持有的公网IP地址资源。如果您希望固定使用某个公网IP地址登录集群,可以为集群绑定弹性公网IP。
使用:自动创建并绑定弹性公网IP到集群登录节点,您可以通过公网访问集群。
不使用:您只能通过专有网络访问集群。
说明使用弹性公网IP会产生费用,具体费用说明请参见计费概述。
VPC、交换机
集群所在的专有网络。不同的专有网络之间逻辑上彻底隔离。您可以在专有网络内创建和管理集群。
默认选择第一个已创建的VPC和交换机,请确保交换机下的IP地址空间足够(可用IP数大于集群所有节点的数量)。
新建安全组
通过配置安全组规则,您可以控制安全组内节点的入流量和出流量。
打开:打开后需要在安全组名称文本框中输入新建的安全组名称。
关闭:关闭后需要在选择安全组列表中选择已有安全组。
共享存储
按文件夹配置
关闭:只为集群配置一个文件系统。
打开:为所有节点的文件夹挂载文件系统,提高本集群的共享存储能力。
类型
集群挂载的文件系统的类型。
通用型NAS:挂载通用型NAS文件系统。
极速型NAS:挂载极速型NAS文件系统。
CPFS-NFS:使用NFS协议挂载CPFS文件系统。
CPFS-POSIX:使用POSIX协议挂载CPFS文件系统。
手动输入:非阿里云文件存储,例如您自建的NAS存储,需要手动输入挂载协议、挂载点等信息。
重要CPFS支持两种挂载方式,两者的挂载操作不同。具体操作,请参见创建以CPFS为共享存储的E-HPC集群。
文件系统ID、挂载点
默认选择第一个已创建的文件系统ID和挂载点,请确保该文件系统还有可用的挂载点余量。
您也可以分别单击创建文件系统和创建挂载点创建新的文件系统和挂载点。
挂载选项
挂载通用型NAS时,可选择挂载协议,支持使用NFS v3协议或NFS v4协议挂载。
远程目录
挂载文件系统的远程目录。
步骤二:配置软件信息
软件指安装在节点上的镜像、调度器、域账号服务等。
硬件配置完成后,单击下一步。
配置软件信息。
配置项
说明
镜像类型、镜像
请根据需要选择镜像类型。E-HPC支持的镜像类型如下:
公共镜像
自定义镜像
共享镜像
镜像市场
社区镜像
计算巢部署物
其中,自定义镜像具有以下限制:
支持基于阿里云官方镜像创建的自定义镜像,以及导入的CentOS镜像。导入镜像时,请务必选中导入后执行检测,否则无法在E-HPC控制台识别该镜像。
无法使用基于已有E-HPC集群节点创建产生的自定义镜像。否则,创建集群计算节点将会产生异常。
自定义镜像中不能修改操作系统的yum源配置,否则会导致无法创建集群或扩容。
自定义镜像的挂载路径(通过mount命令挂载NAS文件系统的挂载路径)不能有
/home
和/opt
目录。
选择镜像类型后,可进一步选择要使用的镜像。不同镜像对应不同的操作系统,系统会根据您选择的镜像来部署集群节点。
重要系统会根据当前选择的地域可用区、您账号具有的镜像资源、节点实例规格支持的镜像等自动显示可以选择的镜像,具体以界面显示为准。
调度器
调度器是指E-HPC集群上部署的作业调度软件。
E-HPC支持多种调度器,但不同的镜像支持的调度器类型有所不同,具体支持情况以控制台为准。
域账号服务
选择域账号服务类型后,通过域账号服务管理创建的集群以及集群用户。目前支持nis和ldap。
VNC
打开VNC开关后,创建集群时系统会自动部署远程可视化服务。您可以直接通过控制台访问远程图形桌面。
弹性RDMA接口
打开弹性RDMA开关后,计算节点默认会绑定弹性RDMA网卡,可以使用高性能RDMA网络服务。更多信息,请参见eRDMA概述。
配置队列和安装后要执行的脚本。
配置项
说明
队列配置
是否新建队列
E-HPC支持将运行不同作业或执行不同任务的计算节点移动到不同队列中,便于筛选节点。具体作业执行顺序根据您设置的队列以及调度器决定。
默认队列:创建集群时所选择的计算节点将自动添加到调度器默认的队列。PBS集群的默认队列为workq,slurm集群的默认队列为comp。
新建队列:在队列名输入框中输入新建的队列名称,创建集群时会自动创建队列,并将所选择的计算节点加入该队列。
安装后执行脚本
下载地址
集群安装后执行的自定义脚本下载地址。
说明支持HTTP和HTTPS协议下载,推荐存放脚本到OSS公开可读Bucket。
执行参数
脚本执行参数。更多信息,请参见安装后脚本配置说明。
步骤三:配置基础信息
软件信息配置完成后,单击下一步。
配置基本信息和登录设置。
配置项
说明
名称
集群名称,该名称将会在集群列表中显示,便于您查找识别。
登录密码、确认密码
集群的登录密码。该密码用于远程SSH访问集群登录节点,对应的用户名为root。
集群版本号
集群的版本号,默认为2.0。
在右侧配置清单查看创建的集群配置,阅读并选中《E-HPC服务条款》,单击确认。
执行结果
创建完成后,在集群页面可以查看新创建的集群状态。若新创建的集群和集群所有节点都处于运行中状态,则表示集群创建完成。