使用向导创建集群
创建集群时,您需要配置集群的硬件配置、软件配置、基础配置等信息。本文介绍如何在E-HPC控制台使用向导创建集群。
前提条件
背景信息
集群可为E-HPC计算提供计算资源、存储资源等,用于后续提交作业、调度作业、存储作业结果、查看作业结果。创建和使用E-HPC集群请了解以下内容:
步骤一:配置硬件信息
创建集群时,您必须配置集群的硬件信息。硬件决定了集群的性能,包括集群所处的地域、集群部署方式、不同类型节点数量、网络类型、共享存储等。
您可以根据您的业务需求选择合适的硬件参数。如您要使用E-HPC集群进分子动力学计算,可以选择GPU机型来加速核心计算。
登录弹性高性能计算控制台。
在顶部菜单栏左上角处,选择地域。
在左侧导航栏,单击集群。
在集群页面右上角,单击创建集群。
在硬件配置页面,填写硬件配置信息。
配置项
说明
可用区
在下拉列表中选择集群的可用区。
说明为保证E-HPC节点间的网络通讯效率,所有开通的节点均位于同一地域同一可用区,请参见地域和可用区。
付费类型
集群各节点的计费方式,其中不包括弹性公网IP、NAS存储的费用。
包年包月:按周、月或年购买及续费,为预付费模式。
按量付费:按实际开通时长以小时为单位进行收费,为后付费模式。
抢占式实例:仅计算节点是抢占式实例,管控节点和登录节点是按量付费实例,为后付费模式。
更多信息,请参见计费方式概述。
部署方式
集群的部署方式,可选值:
标准:登录节点、管控节点和计算节点分离部署。
精简:登录节点、管控节点混合部署在一台实例上,计算节点分离部署。
节点类型和数量
节点的实例规格和数量。关于如何选择节点的实例规格,请参见产品规格和选型最佳实践。
计算节点:用于执行高性能计算作业的节点,其配置决定了E-HPC集群的总体性能。
管控节点:用于进行作业调度和域账号管理的节点。
登录节点:默认绑定弹性公网IP,您可远程登录该节点,通过命令行操作集群。
注意登录节点通常会被配置为开发环境,需要为集群所有用户提供软件开发调试所需的资源及测试环境,因此推荐登录节点选择与计算节点配置一致或内存配比更大的实例。
系统盘
所有节点系统盘的云盘类型和容量,取值范围:40~2000 GB。
说明500 GB以上需要申请才能使用,请提交工单。
单击高级配置,在展开的高级配置页面设置具体参数。
配置项
说明
授权实例配置
功能启用
为集群登录节点和管控节点绑定RAM角色,您可以在这些节点上使用相关角色权限访问阿里云产品。
该功能默认关闭,如需使用,请提交工单。
工单处理完成后,根据您的用户类型进行如下操作。
阿里云账号(主账号):单击前往RAM进行授权,授权用户使用系统已创建的默认角色。
RAM用户(子账号):请使用阿里云账号(主账号)登录RAM控制台,选择如下任一方式对RAM用户进行授权。
新增如下自定义权限策略,并将该自定义权限策略赋予RAM用户。具体操作,请参见授权RAM用户使用实例RAM角色。
{ "Version": "1", "Statement": [ { "Effect": "Allow", "Action": "ram:ListRoles", "Resource": "*" } ] }
直接为RAM用户赋予AliyunRAMReadonlyAccess权限。具体操作,请参见授权RAM用户使用实例RAM角色。
说明AliyunRAMReadonlyAccess权限为只读访问访问控制(RAM)的权限,即查看用户、组以及授权信息的权限。该权限的范围大于手动新增的自定义权限策略。
{ "Version": "1", "Statement": [ { "Action": [ "ram:Get*", "ram:List*", "ram:GenerateCredentialReport" ], "Resource": "*", "Effect": "Allow" } ] }
角色名称
为集群节点选择RAM角色。
说明建议您选择系统创建的默认角色AliyunECSInstanceForEHPCRole。
节点类型
支持配置RAM角色的节点类型包括:
调度器节点
域账号节点
登录节点
资源组配置
资源组
集群节点所在资源组。您可以使用资源组对您账号下多种集群节点进行集中的分组管理。
网络配置
弹性公网IP
弹性公网IP是可以独立购买和持有的公网IP地址资源。如果您希望长期使用某个公网IP地址登录集群,可以将它绑定到集群登录节点上。
使用:自动创建并绑定弹性公网IP到集群登录节点,您可以通过公网访问集群。
不使用:您只能通过专有网络访问集群。
使用弹性公网IP会产生一些费用,具体费用说明请参见计费概述。
VPC
集群所在的专有网路。不同的专有网络之间逻辑上彻底隔离。您可以在专有网络内创建和管理集群。
默认选择第一个已创建的VPC和交换机,请确保交换机下的IP地址空间足够(可用IP数大于集群所有节点的数量)。
交换机
新建安全组
通过配置安全组规则,您可以控制安全组内节点的入流量和出流量。
打开:打开后需要在安全组名称文本框中输入新建的安全组名称。
关闭:关闭后需要在选择安全组列表中选择已有安全组。
共享存储
按文件夹配置
E-HPC所有用户数据、调度器信息、作业共享数据等信息都会存储在文件存储NAS以供集群所有节点共享访问。
关闭:只为集群配置一个文件系统。
开启:为所有节点的文件夹挂载文件系统,提高本集群的共享存储能力。
文件系统类型
文件存储的规格类型。可选值:
通用型NAS
极速型NAS
CPFS:关于如何创建CPFS文件系统的E-HPC集群,请参见创建CPFS文件系统的E-HPC集群。
文件系统ID
默认选择第一个已创建的文件系统ID和挂载点,请确保该文件系统还有可用的挂载点余量。
挂载点
远程目录
挂载文件系统的远程目录。
步骤二:配置软件信息
软件指安装在节点上的镜像、调度器、主流的E-HPC软件等。您可以根据业务需求,选择合适的软件。如您需要进行分子动力学模拟,推荐您安装gromacs-gpu 2018.1、openmpi 3.0.0、cuda-toolkit 9.0、vmd 1.9.3等软件。
硬件信息配置完成后,单击下一步,填写软件配置信息。
配置项
说明
镜像类型和镜像
不同镜像类型对应不同的操作系统,操作系统指部署在集群所有节点上的操作系统。
您可以选择公共镜像、自定义镜像、共享镜像。
自定义镜像限制:
E-HPC仅支持基于阿里云官方镜像创建的自定义镜像。
当您选择自定义镜像后,就不能使用基于已有E-HPC集群节点创建产生的自定义镜像,否则,创建集群计算节点将会产生异常。
自定义镜像中不能修改操作系统的yum源配置,否则会导致无法创建集群或扩容。
自定义镜像的挂载路径(通过mount命令挂载NAS文件系统的挂载路径)不能有/home和/opt目录。
调度器
调度器是指E-HPC集群上部署的作业调度软件。E-HPC支持多种调度器,但不同的镜像支持的调度器类型有所不同,具体支持情况以控制台为准。
域账号服务
选择域账号服务类型后,通过域账号服务管理创建的集群以及集群用户。目前支持nis和ldap。
单击高级配置,在展开的高级配置页面设置具体参数。
配置项
说明
队列配置
是否新建队列
E-HPC支持将运行不同作业或执行不同任务的计算节点移动到不同队列中,便于筛选节点。具体作业执行顺序根据您设置的队列以及调度器决定。
默认队列:创建集群时所选择的计算节点将自动添加到调度器默认的队列。PBS集群的默认队列为workq,slurm集群的默认队列为comp。
新建队列:在队列名输入框中输入新建的队列名称,创建集群时会自动创建队列,并将所选择的计算节点加入该队列。
安装后执行脚本
VNC
开启VNC开关后,创建集群时系统会自动部署远程可视化服务。您可以直接通过控制台Web方式访问远程图形桌面。
下载地址
集群安装后执行的自定义脚本下载地址。
说明支持HTTP和HTTPS协议下载,推荐存放脚本到OSS公开可读Bucket。
执行参数
脚本执行参数。更多信息,请参见安装后脚本配置说明。
软件版本
产品版本
E-HPC的产品版本。
其他软件
选择需要安装在E-HPC集群上的主流HPC软件。集群创建完成之后,所选的软件将会安装在共享存储文件中。更多信息,请参见软件管理。
注意选择预装高性能计算应用软件时,必须选择所依赖的软件包(如mpich或openmpi,参见软件包名后缀)。如选择“-gpu”后缀的软件必须确保计算节点为GPU实例。否则会有集群创建失败或软件无法正常运行的风险。
步骤三:配置基础信息
软件信息配置完成后,单击下一步,设置基础配置参数。
配置项
说明
名称
集群名称,该名称将会在集群列表中显示,便于您查找识别。
登录密码
集群的登录密码。该密码用于远程SSH访问集群登录节点,对应的用户名为root。
确认密码
再次输入登录密码。
在右侧配置清单查看创建的集群配置,阅读并选中《E-HPC服务条款》,单击确认。
执行结果
创建完成后,在E-HPC集群页面,查看新创建的集群状态。若新创建的集群和集群所有节点都处于运行中状态,则集群已创建完成。