全部产品
云市场

创建及配置集群

更新时间:2019-03-08 11:40:29

本文介绍了创建及配置集群的基本配置流程和查看配置清单的方法,并详细说明了各高级配置项的用法。

基本配置流程

开通并创建NAS

首次创建E-HPC集群之前,需要先登录文件存储产品页面 开通NAS服务,NAS服务开通后,登录到NAS控制台开始 创建NAS文件系统,并为文件系统 添加挂载点,操作完成之后,就可以登录到EHPC控制台创建集群了。

创建集群

1.. 登录E-HPC管理控制台。如果尚未注册,请先单击 免费注册 完成注册流程(按照最新国家规定,需要实名制注册)。登录后定位到 弹性高性能计算,会直接显示如下的集群界面:

ClusterView

2.. 在该 集群 界面,先选择地域(如华东1),单击右上角开始 创建集群

注意1:请先了解地域和可用区

注意2: 在创建、管理或使用E-HPC集群时,非特殊情况请勿使用云服务器ECS管理控制台调整单个集群节点。建议通过E-HPC集群管控平台操作。详情见 为什么不能使用ECS管理控制台对E-HPC集群节点进行操作?

第一步:硬件配置

硬件配置项包括:可用区、付费类型、部署方式和节点配置,如下图所示:HardwareConfig

1. 选择可用区。

ZoneSelect

说明:为了保证E-HPC节点间的网络通讯效率,所有开通的节点均位于同一地域同一可用区,请参见地域和可用区。如果在开通E-HPC集群时发现想用的区域不可选,请参见为什么某些地域无法开通E-HPC集群

2. 选择付费类型

付费类型是指集群节点ECS实例的计费方式,其中不包括弹性IP、NAS存储的费用。共有三种付费类型供您选择:包年包月、按量付费和竞价实例。ChargeMode

3. 选择部署方式

DeployMode

说明:

  • 标准:登录节点、管控节点和计算节点分离部署,管控节点可以选2台或4台(HA)。
  • 简易:登录、管控服务混合部署在一台节点上,计算节点分离。
  • One-box: 所有类型的服务都部署在一台计算节点上,整个集群只有一个节点,可选择使用本地存储或NAS存储。使用NAS存储时可支持集群扩容。
4. 节点配置

NodeSelect

如上图,系统中默认分配2个管控节点实例,还可以自己选择1个或者4(HA)。计算节点的数量指定为3台。登录节点默认分配1台。点击节点的打开下拉菜单可进一步选择所需机型。

说明: E-HPC集群主要由以下3种节点构成

  • 计算节点:用于执行高性能计算作业的节点
  • 管控节点:用于进行作业角度和域账户管理的节点,包括相互独立的2种节点:
    • 作业调度节点:部署作业调度器
    • 域帐户管理节点:部署集群的域账号管理软件
  • 登录节点:具备公网IP,用户可远程登录该节点,通过命令行操作HPC集群

一般来说,作业调度节点只处理作业调度,域帐户管理节点只处理帐户信息,都不参与作业运算,因此原则上管控节点选用较低配置的企业级实例(如小于4CPU核的sn1ne实例)保证高可用性即可。计算节点的硬件配置选择是影响集群性能的关键点。登录节点通常会被配置为开发环境,需要为集群所有用户提供软件开发调试所需的资源及测试环境,因此推荐登录节点选择与计算节点配置一致或内存配比更大的实例。各种机型的详细信息可参考推荐配置

完成硬件配置后,点击下一步进入软件配置界面。

第二步:软件配置

软件配置项包括:镜像类型、操作系统、调度器和软件包,如下图所示:SoftwareConfig

说明:

  • 选择不同的镜像类型,操作系统的可选项也会变化。操作系统指部署在集群所有节点上的操作系统。
  • 调度器是指HPC集群上部署的作业调度软件。选择不同的作业调度软件,向集群提交作业时作业脚本和参数也会有相应的不同。
  • 软件包是指HPC集群上部署的HPC软件,HPC提供多种类型的典型配置软件包如GROMACS、OpenFOAM和LAMMPS等,包含相应的软件和运行依赖,集群创建完毕之后,所选的软件将会预装到集群上。

第三步:基础配置

基础配置项包括:基本信息和登录设置,如下图所示:BaseConfig

说明:

  • 基本信息中的名称是指集群名称,该名称将会在集群列表中显示,便于用户查找。
  • 登录设置填写的是登录该集群的密码,该密码用于远程SSH访问集群登录节点时使用,对应的用户名为root。

完成基本配置后,勾选《E-HPC服务条款》,点击确认即可创建集群。

查看配置清单

您可以在创建集群界面的右侧查看当前配置清单。默认情况下,配置清单仅显示基础配置,您可以勾选高级配置选项查看更多配置项。

ConfigList

查看配置拓扑图

在创建完集群之后,点击右上角查看详情,我们可以查看到集群的在拓扑图。TopoButton

可以看到当前配置拓扑图中,包括VPC名称、交换机名称、NAS实例名、登录节点、管控节点、计算节点的配置及数量等。ClusterTopo

查询创建状态

大约20分钟后,您可以回到E-HPC集群页面,查看新集群状态。若新集群所有节点皆处于 运行中 的状态,则集群已创建完毕。下一步用户可登录到集群进行操作,请参见指引使用集群

高级配置

按照基本配置流程可创建通用E-HPC集群,如果用户需要更灵活的配置,可以在高级配置选项下进行选择。创建集群的三个步骤中前两个步骤都有高级配置可供用户选择。

硬件高级配置

依次打开创建集群 > 硬件配置 > 高级配置,可以看到如下配置选项(本例在创建集群前已事先创建了网络、存储等基础服务):

HardwareAdvConfig

网络配置

上图中的网络配置部分,用户可自行在阿里云专有网络控制台创建VPC、交换机,在阿里云云服务器控制台创建安全组,创建完成后即可在这里可以选择所需的VPC、交换机、安全组等网络配置。如果不想跳转到其他服务的控制台,也可点击此处的“创建VPC”、“创建子网(交换机)”链接,在右侧的滑动窗口中创建相应的组件。

说明:如果用户事先没有创建VPC和交换机,创建集群的流程将会自动创建默认一个默认的VPC和交换机,VPC网段为192.168.0.0/16,交换机网段为192.168.0.0/20。用户如果自行创建了VPC,需要在所需的可用区下自行创建交换机才可继续创建集群。如果用户自行创建了VPC和交换机,使用基础配置流程创建集群时将会自动选择第一个VPC和交换机,请确保交换机下的IP地址空间足够(可用IP数大于集群所有节点的数量),用户也可以在高级配置下的VPC和交换机配置中自行选择任何已创建的VPC和交换机。

共享存储配置

上图中的共享存储部分,E-HPC所有用户数据、用户管理、作业共享数据等信息都会存储在共享存储上以供集群各节点访问。目前共享存储是由文件存储NAS提供。而要使用NAS还要配套挂载点和远程目录。

说明:如果用户事先没有在当前可用区创建NAS实例和挂载点,创建集群的流程将会在可用区下自动创建默认一个默认的NAS实例与挂载点。如果用户在当前可用区自行创建了NAS实例和挂载点,使用基础配置流程创建集群时将会自动选择第一个NAS实例和挂载点。如果在该NAS实例在可用区下没有可用的挂载点,创建集群的流程会自动创建一个挂载点。请确保该NAS实例还有可用的挂载点余量。

系统盘大小配置

用户可以根据自己实际需求,在这里指定创建集群计算节点的系统盘大小,默认值是40,范围在40-500(G)之间。

该值与集群扩容时系统盘大小的默认值保持一致,用户也可以在集群扩容时为新扩容的节点重新设置系统盘大小。

软件高级配置

依次打开创建集群 > 软件配置 > 高级配置,进行高级选项配置。

队列配置

用户可在此处为创建的集群指定队列,当不指定时集群会加入到默认的队列,如,PBS集群的默认队列为workq,slurm集群的默认队列为comp.

queueconfig

安装后执行脚本

集群部署完毕后,用户可以在此处执行脚本。PostScript

说明:

  • 下载地址是指脚本文件所在的地址,一般将脚本上传到OSS服务,这里填写OSS文件的url。
  • 执行参数是指执行脚本时需要传入的命令行参数。
软件版本

用户可以在此处选择域账号服务软件类型和具体的软件清单:VersionConfig

注意:在选择预装高性能计算应用软件时,必须选择所依赖的软件包(如mpich或openmpi,参见软件包名后缀)。如选择”-gpu”后缀的软件,必须确保计算节点使用GPU系列机型。否则会有集群创建失败或软件无法正常运行的风险。