管理节点

E-HPC集群所属的计算节点为ECS实例,您可以管理集群中已创建的计算节点,执行远程连接、发送命令、重启和释放等操作。本文介绍如何管理集群中的ECS节点。

前提条件

  • 集群状态处于运行中

  • 创建节点时,需满足以下条件:

说明

节点列表页面仅展示计算节点,不展示管理节点和登录节点。

创建节点

  1. 进入集群详情页面。

    1. 登录弹性高性能计算控制台

    2. 在顶部菜单栏左上角处,选择地域。

    3. 在左侧导航栏,单击集群

    4. 集群列表页面,单击目标集群名称

  2. 在左侧导航栏,选择节点与队列 > 节点

  3. 单击添加节点,在添加节点页面配置以下参数。

    • 基础设置

      配置项

      说明

      目标队列

      选择该集群内已创建的队列。

      节点数

      设置需要扩容的节点数量。

    • 节点配置

      配置项

      说明

      选择节点类型

      仅支持选择新建节点

      节点间互联

      选择节点之间网络连通方式。

      • VPC:节点之间通过VPC网络进行通信。

      • eRDMA:如果节点使用支持ERI的规格,则节点之间可以通过eRDMA网络进行通信。

        说明

        仅部分节点规格支持ERI,更多信息,请参见eRDMA概述在企业级实例上配置eRDMA

      虚拟交换机

      选择节点所属的交换机。系统会自动从可用的交换机网段中为节点分配IP地址。

      实例规格组

      单击添加实例规格,选择节点的规格。

      如果未开启自动伸缩,则仅支持添加一个实例规格;如果开启了自动伸缩,则支持添加多个实例规格。

      主机名前缀

      节点主机名的开头字符,用以标记区分节点。

      主机名后缀

      节点主机名的结尾字符,用以标记区分节点。

      实例RAM角色

      为节点绑定RAM角色,使得节点可以获得权限访问阿里云服务。

      建议您选择系统创建的默认角色AliyunECSInstanceForEHPCRole。

  4. 选中我已知晓:添加节点默认开启“删除保护”功能,不受队列伸缩配置影响,然后单击确认添加

    说明

    新增计算节点会自动安装集群软件并初始化,原有计算节点的使用不受影响。

    您可以在节点列表中查看已扩容节点的状态。当该节点状态为运行中,说明扩容集群已完成。

重启节点

如果计算节点出现异常,您可以尝试重启节点。重启分为以下两种方式:

  • 普通重启:向节点发送重启命令,由操作系统完成终止进程、系统重启等操作。

  • 强制重启:等同于强制断电重启,可能丢失数据。请仅在普通重启失败时再尝试强制重启。

重要

重启节点时,正在该节点运行的作业将会停止。请确保要重启的节点上没有在运行的作业再执行重启操作。

  1. 进入集群详情页面。

    1. 登录弹性高性能计算控制台

    2. 在顶部菜单栏左上角处,选择地域。

    3. 在左侧导航栏,单击集群

    4. 集群列表页面,单击目标集群名称

  2. 在左侧导航栏,选择节点与队列 > 节点

  3. 在节点列表中选中一个或多个目标节点。

  4. 在列表下方单击重启

  5. 在弹出对话框中,选择重启方式,然后单击确定

远程连接节点

说明

Workbench的远程连接会话默认维持6个小时,如果您超过6小时没有任何操作,连接会自动断开,您需要重新连接实例。

  1. 进入集群详情页面。

    1. 登录弹性高性能计算控制台

    2. 在顶部菜单栏左上角处,选择地域。

    3. 在左侧导航栏,单击集群

    4. 集群列表页面,单击目标集群名称

  2. 在左侧导航栏,选择节点与队列 > 节点

  3. 在节点列表页面,找到需要连接的节点,单击对应操作列下的远程连接

  4. 在弹出的远程连接对话框中,单击通过Workbench远程连接对应的立即登录

  5. 在弹出的登录实例对话框中,输入登录信息。关于各项参数配置信息,请参见使用Workbench连接实例

发送命令

如果需要快速完成对节点的维护,例如安装软件,执行运维脚本等,可以使用发送命令功能快速操作。

  1. 进入集群详情页面。

    1. 登录弹性高性能计算控制台

    2. 在顶部菜单栏左上角处,选择地域。

    3. 在左侧导航栏,单击集群

    4. 集群列表页面,单击目标集群名称

  2. 在左侧导航栏,选择节点与队列 > 节点

  3. 在节点列表中选中一个或多个目标节点。

  4. 在列表下方单击发送命令

  5. 在弹出的对话框中,设置命令参数,并输入命令内容。

    关于命令参数的解释,请参见发送远程命令

  6. 单击执行

开启或关闭删除保护

集群的删除保护功能是一种安全特性,旨在防止意外删除节点。该功能启用后,删除操作将受限制,需经过确认步骤才能完成,以避免误操作或恶意删除节点,确保集群稳定安全运行。

  1. 进入集群详情页面。

    1. 登录弹性高性能计算控制台

    2. 在顶部菜单栏左上角处,选择地域。

    3. 在左侧导航栏,单击集群

    4. 集群列表页面,单击目标集群名称

  2. 在左侧导航栏,选择节点与队列 > 节点

  3. 在节点列表中选中一个或多个目标节点。

  4. 在列表下方单击更多操作,然后按需选择开启删除保护关闭删除保护

  5. 在弹出对话框中,单击确定

删除节点

对于不再需要的计算节点,您可以执行删除操作将节点从集群中移除,实现集群缩容。

根据计费方式的差异,按量付费的节点将立即释放,而包年包月的节点会继续保留。到期前,需申请退款或转为按量付费后再释放。具体操作,请参见释放实例

重要

实例释放后数据无法恢复。如果需要保留数据,建议提前创建快照备份数据。具体操作,请参见创建快照

  1. 进入集群详情页面。

    1. 登录弹性高性能计算控制台

    2. 在顶部菜单栏左上角处,选择地域。

    3. 在左侧导航栏,单击集群

    4. 集群列表页面,单击目标集群名称

  2. 在左侧导航栏,选择节点与队列 > 节点

  3. 在节点列表中选中一个或多个目标节点。

  4. 在列表下方单击删除

  5. 确认提示信息,然后单击确定