通过控制台快速创建和管理集群

本入门教程介绍如何通过E-HPC控制台快速创建一个公共云标准版的集群并进行管理,帮助您快速上手使用弹性高性能计算产品。

前提条件

  • 已创建服务关联角色。首次登录E-HPC控制台,系统会提示您创建E-HPC服务关联角色。

  • 已创建专有网络VPC和交换机。具体操作,请参见创建专有网络创建交换机

  • 已创建存储资源。E-HPC集群支持挂载NAS和CPFS文件系统,可按需选择。

创建集群

  1. 单击前往创建集群页面

  2. 创建集群页面,完成以下各步骤的参数配置。

    1. 集群配置

      • 基础设置

        配置项

        示例

        说明

        地域

        华东 1(杭州)

        选择集群所在地域。

        网络及可用区

        • 专有网络:vpc-bp1opxu1zkhn00g****

        • 交换机:vsw-bp1ljgg5tjrs62n64****

        选择集群所在的专有网络和交换机。

        说明

        集群内的节点会占用所选交换机的IP地址,请确保交换机下的可用IP地址数大于所需的节点数量。

        安全组

        选择自动创建普通安全组

        安全组用于控制集群及其节点的出入流量。系统自动创建的安全组会自动添加规则,保证集群内的各节点通信。

        请根据需要选择自动创建的安全组类型。关于普通安全组和企业安全组的差异,请参见普通安全组与企业级安全组

      • 集群类型

        本文演示如何创建公共云标准版集群,该类型集群由一个管理节点和多个计算节点组成。您需要选择集群部署的调度器类型,并配置管理节点。

        配置项

        示例

        说明

        系列

        选择标准版

        集群的系列。

        部署模式

        选择公共云集群

        集群的部署模式。

        集群类型

        选择SLURM

        选择集群的调度器类型。支持HPC场景常用调度器,包括Slurm、OpenPBS和Grid Engine。

        管理节点

        • 规格族:通用型g6

        • 实例规格:ecs.g6.large

        • 镜像:CentOS 7.6 64 位

        • 存储:系统盘40G、ESSD云盘PL0

        • 超线程:启用

        管理节点是一台部署了调度器和域账号服务的ECS实例。请根据业务场景和集群规模,为管理节点选择合适的配置。

        • 付费模式

          选择如何为管理节点付费。具体计费说明,请参见实例规格计费

          • 按量付费:后付费,按实际使用时长计费,不支持抢占式实例。

          • 包年包月。预付费,按周、月、年计费。

        • 实例规格

          选择合适的管理节点规格。对于不同规模的集群,推荐的管理节点规格如下:

          • 如果计算节点数≤100个,管理节点规格建议vCPU≥16核,内存≥64 GiB。

          • 如果计算节点数≤500个,管理节点规格建议vCPU≥32核,内存≥128 GiB。

          • 如果计算节点数>500个,管理节点规格建议vCPU≥64核,内存≥256 GiB。

        • 镜像

          选择用于部署管理节点环境的镜像。不同镜像支持的调度器不同,以界面显示为准。

        • 存储

          选择管理节点的系统盘规格,以及是否挂载数据盘。关于云盘的类型和性能等信息,请参见云盘概述

        • 超线程

          默认开启CPU超线程,如果您的业务场景需要获得更好的性能表现,可以关闭CPU超线程。

    2. 计算节点与队列

      • 基本设置

        配置项

        示例

        说明

        队列自动伸缩

        不开启

        选择是否开启自动伸缩。开启后,可进一步按需选择是否开启自动扩容自动缩容

        开启自动伸缩后,系统会根据配置信息和实时负载,自动增加或者减少计算节点。

        队列节点数

        5

        设置队列包含的节点数量。

        • 如果没有开启队列自动伸缩,请配置队列初始的计算节点数量。

        • 如果开启了队列自动伸缩,请配置队列允许的最小节点数和最大节点数。

          重要

          如果将最小节点数修改为非0值,集群缩容时该队列会保留最小节点数量的节点,即使是空闲节点也不会被释放。请您谨慎设置最小节点数,以免导致自动缩容后队列中存在空闲节点,造成资源浪费和不必要的经济损失。

      • 选择队列节点配置

        配置项

        示例

        说明

        节点间互联

        选择VPC网络

        选择节点之间网络连通方式。

        • VPC:节点之间通过VPC网络进行通信。

        • eRDMA:如果节点使用支持ERI的规格,则节点之间可以通过eRDMA网络进行通信。

          说明

          仅部分节点规格支持ERI,更多信息,请参见eRDMA概述在企业级实例上配置eRDMA

        虚拟交换机

        vsw-bp1ljgg5tjrs62n64****

        选择节点所属的交换机。系统会自动从可用的交换机网段中为节点分配IP地址。

        实例规格组

        • 规格族:通用型g6

        • 实例规格:ecs.g6.large

        • 镜像:CentOS 7.6 64 位

        • 存储:系统盘40G、ESSD云盘PL0

        • 超线程:启用

        单击添加实例规格,选择节点的规格。

        如果未开启自动伸缩,则仅支持添加一个实例规格;如果开启了自动伸缩,则支持添加多个实例规格。

    3. 共享文件存储

      配置项

      示例

      说明

      类型

      选择通用型NAS

      选择要挂载的文件系统类型。

      • 通用型NAS:挂载通用型NAS文件系统。

      • 极速型NAS:挂载极速型NAS文件系统。

      • 并行文件CPFS:使用NFS协议挂载CPFS文件系统。

      文件系统

      0e9104****(容量型 NFS)

      选择要挂载的文件系统ID和挂载点,请确保该文件系统还有可用的挂载点余量。

      文件系统目录

      0e9104****-tpd33.cn.hangzhou.nas.aliyuncs.com

      输入要挂载的文件系统目录。

      挂载选项

      选择NFS v3挂载

      选择挂载协议。

    4. 软件与服务组件

      无需设置,默认已配置一个登录节点。

    5. 确认配置

      确认配置信息,并配置集群名称和登录凭证。

      配置项

      示例

      说明

      集群名称

      E-HPC-test

      输入名称。该名称会在集群列表中显示,便于您查找识别。

      登录凭证

      选择自定义密码

      选择登录集群的凭证。目前仅支持自定义密码

      设置密码确认密码

      Ehpc12****

      输入登录集群的密码。集群中所有节点默认使用该密码作为root用户的登录密码。

  3. 阅读服务与协议,确认费用信息,然后单击创建集群

    集群列表页面,如果出现名为E-HPC-test且状态为运行中的集群,则表示该集群已成功创建。

创建用户

在集群中提交作业前,您需要为集群新增用户。

  1. 用户管理页面,单击新增用户

  2. 在弹出的对话框中,完成用户信息配置,然后单击确定

    配置项

    示例

    说明

    用户名

    test.user

    用户名称,自定义输入。

    • 限制为6~30个字符。

    • 以英文开头。

    • 英文字母数字或符号(.)组成。

    用户权限

    sudo权限组

    • 普通权限组:适用于只有提交、调试作业需求的普通用户。

    • sudo权限组:适用于需要管理集群的管理员。除提交、调试作业外,还可以执行sudo命令进行安装软件、重启节点等操作。

      重要

      请谨慎分配sudo权限。具有sudo权限的用户如果操作错误(如误删除E-HPC软件栈模块),会导致集群异常。

    密码确认密码

    Ehpc12****

    根据页面提示,设置用户使用密码登录集群时,需要输入的密码。

扩容集群

  1. 集群列表页面,单击目标集群名称

  2. 在左侧导航栏,选择节点与队列 > 节点

  3. 单击添加节点,在添加节点页面配置以下参数。

    • 基础设置

      配置项

      示例

      说明

      目标队列

      comp

      选择该集群内已创建的队列。

      节点数

      10

      设置需要扩容的节点数量。

    • 节点配置

      配置项

      示例

      说明

      选择节点类型

      新建节点

      仅支持选择新建节点

      节点间互联

      VPC网络

      选择节点之间网络连通方式。

      • VPC网络:节点之间通过VPC网络进行通信。

      • eRDMA网络:如果节点使用支持ERI的规格,则节点之间可以通过eRDMA网络进行通信。

        说明

        仅部分节点规格支持ERI,更多信息,请参见eRDMA概述在企业级实例上配置eRDMA

      虚拟交换机

      vsw-bp1ljgg5tjrs62n64****

      选择节点所属的交换机。系统会自动从可用的交换机网段中为节点分配IP地址。

      实例规格组

      • 规格族:通用型g6

      • 实例规格:ecs.g6.large

      • 镜像:CentOS 7.6 64 位

      • 存储:系统盘40G、ESSD云盘PL0

      • 超线程:启用

      单击添加实例规格,选择节点的规格。

      如果未开启自动伸缩,则仅支持添加一个实例规格;如果开启了自动伸缩,则支持添加多个实例规格。

  4. 选中我已知晓:添加节点默认开启“删除保护”功能,不受队列伸缩配置影响,然后单击确认添加

    您可以在节点列表中查看已扩容节点的状态。当该节点状态为运行中,说明扩容集群已完成。

提交作业

  1. 在集群详情页面左侧导航栏,单击作业管理

  2. 单击创建作业

  3. 创建作业页面,根据实际需要完成相关配置,然后单击确认创建

    说明

    请注意以下配置,未提及的配置请保持默认。更多配置详情,请参见提交作业

    配置项

    是否必选

    示例

    说明

    作业名称

    testjob

    该作业的名称。

    调度器队列

    comp

    选择集群中执行作业任务的队列。

    执行命令

    /home/test.user/testjob.slurm

    向调度器提交的作业执行命令,可以是脚本文件,也可以是一段命令文本。分为以下两种情况:

    • 脚本文件可执行,填写相对路径,如/home/test.user/testjob.slurm

    • 脚本文件没有可执行权限,则需要填写执行命令,如:/opt/mpi/bin/mpirun /home/test/job.slurm

删除节点

对于不再需要的计算节点,您可以执行删除操作将节点从集群中移除。

  1. 在节点列表中选中一个或多个节点。

  2. 在列表下方单击删除

  3. 确认提示信息,然后单击确定

释放集群

当您不再需要某个集群提供服务时,您可以释放该集群。

  1. 集群详情页面,单击右上角的更多操作,然后单击释放集群

  2. 在弹出对话框中,单击确认

相关文档

您可以通过集群模板快速创建一个预装GROMACS软件的集群,并通过E-HPC Portal快速提交作业。具体操作,请参见快速开启GROMACS分析任务