E-HPC集群所属的计算节点为ECS实例,您可以管理集群中已创建的计算节点,执行远程连接、发送命令、重启和释放等操作。本文介绍如何管理集群中的ECS节点。
前提条件
节点列表页面仅展示计算节点,不展示管理节点和登录节点。
创建节点
进入集群详情页面。
登录弹性高性能计算控制台。
在顶部菜单栏左上角处,选择地域。
在左侧导航栏,单击集群。
在集群列表页面,单击目标集群名称。
在左侧导航栏,选择
。单击添加节点,在添加节点页面配置以下参数。
基础设置
配置项
说明
目标队列
选择该集群内已创建的队列。
节点数
设置需要扩容的节点数量。
节点配置
配置项
说明
选择节点类型
仅支持选择新建节点。
节点间互联
选择节点之间网络连通方式。
VPC:节点之间通过VPC网络进行通信。
eRDMA:如果节点使用支持ERI的规格,则节点之间可以通过eRDMA网络进行通信。
说明仅部分节点规格支持ERI,更多信息,请参见eRDMA概述和在企业级实例上配置eRDMA。
虚拟交换机
选择节点所属的交换机。系统会自动从可用的交换机网段中为节点分配IP地址。
实例规格组
单击添加实例规格,选择节点的规格。
如果未开启自动伸缩,则仅支持添加一个实例规格;如果开启了自动伸缩,则支持添加多个实例规格。
主机名前缀
节点主机名的开头字符,用以标记区分节点。
主机名后缀
节点主机名的结尾字符,用以标记区分节点。
实例RAM角色
为节点绑定RAM角色,使得节点可以获得权限访问阿里云服务。
建议您选择系统创建的默认角色AliyunECSInstanceForEHPCRole。
选中我已知晓:添加节点默认开启“删除保护”功能,不受队列伸缩配置影响,然后单击确认添加。
说明新增计算节点会自动安装集群软件并初始化,原有计算节点的使用不受影响。
您可以在节点列表中查看已扩容节点的状态。当该节点状态为运行中,说明扩容集群已完成。
重启节点
如果计算节点出现异常,您可以尝试重启节点。重启分为以下两种方式:
普通重启:向节点发送重启命令,由操作系统完成终止进程、系统重启等操作。
强制重启:等同于强制断电重启,可能丢失数据。请仅在普通重启失败时再尝试强制重启。
重启节点时,正在该节点运行的作业将会停止。请确保要重启的节点上没有在运行的作业再执行重启操作。
进入集群详情页面。
登录弹性高性能计算控制台。
在顶部菜单栏左上角处,选择地域。
在左侧导航栏,单击集群。
在集群列表页面,单击目标集群名称。
在左侧导航栏,选择
。在节点列表中选中一个或多个目标节点。
在列表下方单击重启。
在弹出对话框中,选择重启方式,然后单击确定。
远程连接节点
Workbench的远程连接会话默认维持6个小时,如果您超过6小时没有任何操作,连接会自动断开,您需要重新连接实例。
进入集群详情页面。
登录弹性高性能计算控制台。
在顶部菜单栏左上角处,选择地域。
在左侧导航栏,单击集群。
在集群列表页面,单击目标集群名称。
在左侧导航栏,选择
。在节点列表页面,找到需要连接的节点,单击对应操作列下的远程连接。
在弹出的远程连接对话框中,单击通过Workbench远程连接对应的立即登录。
在弹出的登录实例对话框中,输入登录信息。关于各项参数配置信息,请参见使用Workbench连接实例。
发送命令
如果需要快速完成对节点的维护,例如安装软件,执行运维脚本等,可以使用发送命令功能快速操作。
进入集群详情页面。
登录弹性高性能计算控制台。
在顶部菜单栏左上角处,选择地域。
在左侧导航栏,单击集群。
在集群列表页面,单击目标集群名称。
在左侧导航栏,选择
。在节点列表中选中一个或多个目标节点。
在列表下方单击发送命令。
在弹出的对话框中,设置命令参数,并输入命令内容。
关于命令参数的解释,请参见发送远程命令。
单击执行。
开启或关闭删除保护
集群的删除保护功能是一种安全特性,旨在防止意外删除节点。该功能启用后,删除操作将受限制,需经过确认步骤才能完成,以避免误操作或恶意删除节点,确保集群稳定安全运行。
进入集群详情页面。
登录弹性高性能计算控制台。
在顶部菜单栏左上角处,选择地域。
在左侧导航栏,单击集群。
在集群列表页面,单击目标集群名称。
在左侧导航栏,选择
。在节点列表中选中一个或多个目标节点。
在列表下方单击更多操作,然后按需选择开启删除保护或关闭删除保护。
在弹出对话框中,单击确定。
删除节点
对于不再需要的计算节点,您可以执行删除操作将节点从集群中移除,实现集群缩容。
根据计费方式的差异,按量付费的节点将立即释放,而包年包月的节点会继续保留。到期前,需申请退款或转为按量付费后再释放。具体操作,请参见释放实例。
实例释放后数据无法恢复。如果需要保留数据,建议提前创建快照备份数据。具体操作,请参见创建快照。
进入集群详情页面。
登录弹性高性能计算控制台。
在顶部菜单栏左上角处,选择地域。
在左侧导航栏,单击集群。
在集群列表页面,单击目标集群名称。
在左侧导航栏,选择
。在节点列表中选中一个或多个目标节点。
在列表下方单击删除。
确认提示信息,然后单击确定。