全部产品
弹性计算 会员服务 网络 安全 移动云 数加·大数据分析及展现 数加·大数据应用 管理与监控 云通信 阿里云办公 培训与认证 智能硬件
存储与CDN 数据库 域名与网站(万网) 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 开发者工具 解决方案 物联网 更多

创建及配置集群

更新时间:2018-06-28 18:00:07

本文介绍了创建及配置集群的基本配置流程和查看配置清单的方法,并详细说明了各高级配置项的用法。

基本配置流程

准备工作

  1. 登录E-HPC管理控制台。如果尚未注册,请先单击 免费注册 完成注册流程(按照最新国家规定,需要实名制注册)。登录后概览界面如下:

    CreateOverview

  2. 定位到 弹性高性能计算 > 集群,选择地域(如华东1),单击 创建集群

注意:请先了解地域和可用区

ClusterList

注意: 在创建、管理或使用E-HPC集群时,非特殊情况请勿使用云服务器ECS管理控制台调整单个集群节点。建议通过E-HPC集群管控平台操作。详情见 为什么不能使用ECS管理控制台对E-HPC集群节点进行操作?

第一步:硬件配置

硬件配置项包括:可用区、付费类型、部署方式和推荐配置,如下图所示:HardwareConfig

1. 选择可用区。

ZoneSelect

说明:为了保证E-HPC节点间的网络通讯效率,所有开通的节点均位于同一地域同一可用区,请参见地域和可用区。如果在开通E-HPC集群时发现想用的区域不可选,请参见为什么某些地域无法开通E-HPC集群

2. 选择付费类型

付费类型是指集群节点ECS实例的计费方式,其中不包括弹性IP、NAS存储的费用。共有三种付费类型供您选择:包年包月、按量付费和竞价实例。ChargeMode

3. 选择部署方式

DeployMode

说明:

  • 标准:登录节点、管控节点和计算节点分离部署,管控节点可以选2台或4台(HA)。
  • 简易:登录、管控服务混合部署在一台节点上,计算节点分离。
  • One-box: 所有类型的服务都部署在一台计算节点上,整个集群只有一个节点,可选择使用本地存储或NAS存储。使用NAS存储时可支持集群扩容。
4. 选择推荐配置

NodeSelect

如上图,系统中自动分配了2个管控节点实例。通过选择GPU系列过滤实例列表后,计算节点登录节点仅展示带GPU的实例供选择。计算节点的数量指定为4台。登录节点默认分配1台。点击节点的打开下拉菜单可进一步选择所需机型。

说明: E-HPC集群主要由以下3种节点构成

  • 计算节点:用于执行高性能计算作业的节点
  • 管控节点:用于进行作业角度和域账户管理的节点,包括相互独立的2种节点:
    • 作业调度节点:部署作业调度器
    • 域帐户管理节点:部署集群的域账号管理软件
  • 登录节点:具备公网IP,用户可远程登录该节点,通过命令行操作HPC集群

一般来说,作业调度节点只处理作业调度,域帐户管理节点只处理帐户信息,都不参与作业运算,因此原则上管控节点选用较低配置的企业级实例(如小于4CPU核的sn1ne实例)保证高可用性即可。计算节点的硬件配置选择是影响集群性能的关键点。登录节点通常会被配置为开发环境,需要为集群所有用户提供软件开发调试所需的资源及测试环境,因此推荐登录节点选择与计算节点配置一致或内存配比更大的实例。各种机型的详细信息可参考推荐配置

完成硬件配置后,点击下一步进入软件配置界面。

第二步:软件配置

软件配置项包括:镜像类型、操作系统、调度器和软件包,如下图所示:SoftwareConfig

说明:

  • 选择不同的镜像类型,操作系统的可选项也会变化。操作系统指部署在集群所有节点上的操作系统。
  • 调度器是指HPC集群上部署的作业调度软件。选择不同的作业调度软件,向集群提交作业时作业脚本和参数也会有相应的不同。
  • 软件包是指HPC集群上部署的HPC软件,HPC提供多种类型的典型配置软件包如GROMACS、OpenFOAM和LAMMPS等,包含相应的软件和运行依赖,集群创建完毕之后,所选的软件将会预装到集群上。

第三步:基础配置

基础配置项包括:基本信息和登录设置,如下图所示:BaseConfig

说明:

  • 基本信息中的名称是指集群名称,该名称将会在集群列表中显示,便于用户查找。
  • 登录设置填写的是登录该集群的密码,该密码用于远程SSH访问集群登录节点时使用,对应的用户名为root。

完成基本配置后,勾选《E-HPC服务条款》,点击确认即可创建集群。

查看配置清单

您可以在创建集群界面的右侧查看当前配置清单。默认情况下,配置清单仅显示基础配置,您可以勾选高级配置选项查看更多配置项。ConfigList

查看配置拓扑图

在创建集群界面的顶部按钮区,有显示/隐藏集群配置拓扑图的按钮:TopoButton

点击按钮可以显示/隐藏当前配置拓扑图,包括VPC名称、交换机名称、NAS实例名、登录节点、管控节点、计算节点的配置及数量等。ClusterTopo

查询创建状态

大约20分钟后,您可以回到E-HPC集群列表页面,查看新集群状态。若新集群所有节点皆处于正常状态,则集群已创建完毕。下一步用户可登录到集群进行操作,请参见指引使用集群

高级配置

按照基本配置流程可创建通用E-HPC集群,如果用户需要更灵活的配置,可以在高级配置选项下进行选择。创建集群的三个步骤中前两个步骤都有高级配置可供用户选择。

硬件高级配置

依次打开创建集群 > 硬件配置 > 高级配置,可以看到如下配置选项(本例在创建集群前已事先创建了网络、存储等基础服务):HardwareAdvConfig

网络配置

NetworkConfig用户可自行在阿里云专有网络控制台创建VPC、交换机,在阿里云云服务器控制台创建安全组,创建完成后即可在这里可以选择所需的VPC、交换机、安全组等网络配置。如果不想跳转到其他服务的控制台,也可点击此处的“创建VPC”、“创建子网(交换机)”链接,在右侧的滑动窗口中创建相应的组件。

说明:如果用户事先没有创建VPC和交换机,创建集群的流程将会自动创建默认一个默认的VPC和交换机,VPC网段为192.168.0.0/16,交换机网段为192.168.0.0/20。用户如果自行创建了VPC,需要在所需的可用区下自行创建交换机才可继续创建集群。如果用户自行创建了VPC和交换机,使用基础配置流程创建集群时将会自动选择第一个VPC和交换机,请确保交换机下的IP地址空间足够(可用IP数大于集群所有节点的数量),用户也可以在高级配置下的VPC和交换机配置中自行选择任何已创建的VPC和交换机。

共享存储配置

NasConfigE-HPC所有用户数据、用户管理、作业共享数据等信息都会存储在共享存储上以供集群各节点访问。目前共享存储是由文件存储NAS提供。而要使用NAS还要配套挂载点和远程目录(请参考NAS相关名词解释)。

说明:如果用户事先没有在当前可用区创建NAS实例和挂载点,创建集群的流程将会在可用区下自动创建默认一个默认的NAS实例与挂载点。如果用户在当前可用区自行创建了NAS实例和挂载点,使用基础配置流程创建集群时将会自动选择第一个NAS实例和挂载点。如果在该NAS实例在可用区下没有可用的挂载点,创建集群的流程会自动创建一个挂载点。请确保该NAS实例还有可用的挂载点余量。

软件高级配置

依次打开创建集群 > 软件配置 > 高级配置,进行高级选项配置。

安装后执行脚本

集群部署完毕后,用户可以在此处执行脚本:PostScript

说明:

  • 下载地址是指脚本文件所在的地址,一般将脚本上传到OSS服务,这里填写OSS文件的url。
  • 执行参数是指执行脚本时需要传入的命令行参数。
软件版本

用户可以在此处选择域账号服务软件类型和具体的软件清单:VersionConfig

注意:在选择预装高性能计算应用软件时,必须选择所依赖的软件包(如mpich或openmpi,参见软件包名后缀)。如选择”-gpu”后缀的软件,必须确保计算节点使用GPU系列机型。否则会有集群创建失败或软件无法正常运行的风险。

本文导读目录