全部产品

创建及配置集群

更新时间:2020-11-26 14:43

本文介绍了创建及配置集群的基本配置流程和查看配置清单的方法,并详细说明了各高级配置项的用法。

开通并创建NAS

首次创建E-HPC集群之前,需要先登录文件存储产品页面 开通NAS服务,NAS服务开通后,登录到NAS控制台开始 创建NAS文件系统,并为文件系统 添加挂载点,操作完成之后,就可以登录到EHPC控制台创建集群了。NAS详细使用操作流程请参见详情

创建集群操作步骤

准备操作

  • 登录E-HPC管理控制台,如果尚未注册,请先单击“免费注册”完成注册流程(按照最新国家规定,需要实名制注册),登录后定位到“弹性高性能计算”,会直接显示E-HPC集群界面。

  • 在该集群界面左上角,先选择要创建集群所在地域(如,华东1),然后单击右上角“创建集群”按钮,开始集群创建。

    注意1:请先了解地域和可用区注意2: 在创建、管理或使用E-HPC集群时,非特殊情况请勿使用云服务器ECS管理控制台调整单个集群节点。建议通过E-HPC集群管控平台操作。详情见 为什么不能使用ECS管理控制台对E-HPC集群节点进行操作?

硬件配置步骤

硬件配置项包括两部分:

  • 基础配置:可用区、付费类型、部署方式、节点配置、系统盘大小、资源组。
  • 高级配置:网络配置、共享资源组。

1. 选择可用区

说明:为了保证E-HPC节点间的网络通讯效率,所有开通的节点均位于同一地域同一可用区,请参见地域和可用区。如果在开通E-HPC集群时发现想用的区域不可选,请参见为什么某些地域无法开通E-HPC集群

2. 选择付费类型

付费类型是指集群节点ECS实例的计费方式,其中不包括弹性IP、NAS存储的费用。共有三种付费类型可供选择:包年包月、按量付费、抢占式实例。

3. 选择部署方式

  • 标准:登录节点、管控节点和计算节点分离部署,管控节点可以选2台或4台(HA)。
  • 简易:登录、管控服务混合部署在一台节点上,计算节点分离。
  • One-box: 所有类型的服务都部署在一台计算节点上,整个集群只有一个节点,可选择使用本地存储或NAS存储。使用NAS存储时可支持集群扩容。

4. 节点规格数量配置

标准部署时,系统中默认分配2个管控节点实例,还可以自己选择1个或者4(HA);计算节点的数量默认为1台,可自定义数量;登录节点默认分配1台。点击节点右侧打开下拉菜单可进一步选择所需机型。

E-HPC集群主要由以下3类节点构成:

  • 计算节点:用于执行高性能计算作业的节点;
  • 管控节点:用于进行作业调度和域账户管理的节点,包括相互独立的2种节点:
  • 作业调度节点:部署作业调度器;
  • 域帐户管理节点:部署集群的域账号管理软件;
  • 登录节点:具备公网IP,用户可远程登录该节点,通过命令行操作HPC集群;

一般来说,作业调度节点只处理作业调度,域帐户管理节点只处理帐户信息,都不参与作业运算,因此原则上管控节点选用较低配置的企业级实例(如小于4CPU核的sn1ne实例)保证高可用性即可。

计算节点的硬件配置选择是影响集群性能的关键点。

登录节点通常会被配置为开发环境,需要为集群所有用户提供软件开发调试所需的资源及测试环境,因此推荐登录节点选择与计算节点配置一致或内存配比更大的实例。各种机型的详细信息可参考推荐配置

5. 设置系统盘大小

用户可以根据自己实际需求,在这里指定创建集群计算节点的系统盘大小,默认值是40,范围在40-500(G)之间。该值与集群扩容时系统盘大小的默认值保持一致,用户也可以在集群扩容时为新扩容的节点重新设置系统盘大小。

6. 高级配置

按照基本配置流程可创建通用E-HPC集群,如果用户需要更灵活的配置,可以在高级配置选项下进行选择。

- 网络配置

用户可自行在阿里云专有网络控制台创建VPC、交换机,在阿里云云服务器控制台创建安全组,创建完成后即可在这里可以选择所需的VPC、交换机、安全组等网络配置。如果不想跳转到其他服务的控制台,也可点击此处的“创建VPC”、“创建子网(交换机)”链接,在右侧的滑动窗口中创建相应的组件。

说明:

  • 如果用户事先没有创建VPC和交换机,创建集群的流程将会自动创建默认一个默认的VPC和交换机,VPC网段为192.168.0.0/16,交换机网段为192.168.0.0/20。
  • 用户如果自行创建了VPC,需要在所需的可用区下自行创建交换机才可继续创建集群。
  • 如果用户自行创建了VPC和交换机,使用基础配置流程创建集群时将会自动选择第一个VPC和交换机,请确保交换机下的IP地址空间足够(可用IP数大于集群所有节点的数量),用户也可以在高级配置下的VPC和交换机配置中自行选择任何已创建的VPC和交换机。
- 共享存储配置

E-HPC所有用户数据、用户管理、作业共享数据等信息都会存储在共享存储上以供集群各节点访问。目前共享存储是由文件存储NAS提供。而要使用NAS还要配套挂载点和远程目录。

说明:

  • 如果用户事先没有在当前可用区创建NAS实例和挂载点,创建集群的流程将会在可用区下自动创建默认一个默认的NAS实例与挂载点。
  • 如果用户在当前可用区自行创建了NAS实例和挂载点,使用基础配置流程创建集群时将会自动选择第一个NAS实例和挂载点。如果在该NAS实例在可用区下没有可用的挂载点,创建集群的流程会自动创建一个挂载点。请确保该NAS实例还有可用的挂载点余量。

软件配置步骤

完成硬件配置后,点击页面右侧“下一步”按钮,进入软件配置界面。软件配置项包括以下两部分:

  • 基础配置:镜像类型、镜像(即操作系统)、调度器、VNC、软件包。
  • 高级配置:队列配置、安装后执行脚本、软件版本。

1. 选择镜像类型和镜像

选择不同的镜像类型,操作系统的可选项也会变化。操作系统指部署在集群所有节点上的操作系统。

自定义镜像说明:

  • E-HPC自定义镜像仅支持基于阿里云官方镜像打包的镜像,不支持用户本地上传的自定义镜像。
  • 当用户选择自定义镜像后,就不能使用基于已有E-HPC集群节点创建产生的自定义镜像,否则,创建集群计算节点将会产生异常。
  • 若用户在自定义镜像中修改了操作系统的yum源配置,则导致无法创建集群或扩容。
  • 自定义镜像的挂载路径不能有/home和/opt目录。

2. 选择调度器

调度器是指HPC集群上部署的作业调度软件。选择不同的作业调度软件,向集群提交作业时作业脚本和参数也会有相应的不同。

3. 是否开启VNC

E-HPC的通过VNC方式提供了集群远程可视化功能,开启VNC服务相当于在创建集群时部署远程可视化服务,并且能够直接通过控制台Web方式访问远程图形桌面。

4. 选择软件包

软件包是指HPC集群上部署的HPC软件,HPC提供多种类型的典型配置软件包如GROMACS、OpenFOAM和LAMMPS等,包含相应的软件和运行依赖,集群创建完毕之后,所选的软件将会预装到集群上。

5. 高级配置

完成软件部分的基础配置信息后,点击高级配置,开始更加灵活的集群信息高级选项配置。

- 队列配置

用户可在此处为创建的集群指定队列,当不指定时集群会加入到默认的队列,如,PBS集群的默认队列为workq,slurm集群的默认队列为comp。

- 安装后执行脚本

集群部署完毕后,用户可以在此处执行脚本。

  • 下载地址是指脚本文件所在的地址,一般将脚本上传到OSS服务,这里填写OSS文件的url。
  • 执行参数是指执行脚本时需要传入的命令行参数。
- 软件版本

用户可以在此处选择域账号服务类型和具体的单个软件。其中,创建的集群和集群用户会使用域账号服务来进行管理。

  • 在选择预装高性能计算应用软件时,必须选择所依赖的软件包(如mpich或openmpi,参见软件包名后缀)。如,选择”-gpu”后缀的软件必须确保计算节点使用GPU系列机型。否则会有集群创建失败或软件无法正常运行的风险。

基础配置步骤

基础配置项包括:基本信息和登录设置两部分。

  • 基本信息中的名称是指集群名称,该名称将会在集群列表中显示,便于用户查找。
  • 登录设置填写的是登录该集群的密码,该密码用于远程SSH访问集群登录节点时使用,对应的用户名为root。

完成基本配置后,勾选《E-HPC服务条款》,点击“确认”即可创建集群。

查看配置清单

用户可在创建集群过程中,在集群界面右侧查看当前配置清单。默认情况下,配置清单仅显示基础配置,您可以勾选“高级配置”选项查看更多配置项。

查看配置拓扑图

在创建完集群之后,点击集群页面特定集群右侧的“详情”按钮,可以查看到集群拓扑图。已配置拓扑图中,包括交换机所在可用区、NasId、登录节点、管控节点、计算节点配置及数量等。

查询集群创建状态

大约20分钟后,在E-HPC集群页面,查看新集群状态。若新集群所有节点皆处于“运行中”的状态,则集群已创建完毕。下一步用户可登录到集群进行操作,请参见指引使用集群