全部产品
存储与CDN 数据库 安全 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 开发者工具 解决方案 物联网 钉钉智能硬件

节点管理

更新时间:2017-08-31 03:47:41

若您尚未拥有E-HPC集群,请先创建E-HPC集群

弹性高性能计算E-HPC的管理控制台提供了E-HPC集群节点相关的节点查询、重启、重置和释放等功能。

进入节点管控界面

进入E-HPC管理控制台,点选左侧栏的节点标签,进入如下界面:

node-management_summary

选择节点

选出需要调整的节点主要有以下步骤

选择地域

关于地域的说明,请参考地域和可用区

节点所属集群所在的地域即为节点所在地域,需通过地域筛选出节点所在集群。

选择集群

在地域标签下方,点击集群旁边的下拉菜单,根据集群名称可选择节点所在的集群。

node-management_cluster_select

选择节点类型

E-HPC集群主要有三种节点类型:

node-management_node_type

1.管控节点,包括调度服务器和域帐户服务器。

  • 调度服务器:主要作用是运行PBS或SLURM等调度工具的服务端,处理作业提交、管理调度等。
  • 域帐户服务器:集中管理E-HPC集群内用户帐户。

2.计算节点

  • 运行高性能计算作业的服务器,其配置决定了E-HPC集群总体性能。

3.登录节点

  • E-HPC集群普通用户能够操作的唯一节点类型。用户可在登录节点上进行软件调试、编译和安装,作业提交等操作。

管理节点

完成以上节点所在地域、集群以及节点类型选择后,用户可从节点概要信息表中找到需要调整的节点,在操作栏点选所需操作

node-management_node_control

重启节点

注意:如无特殊需要(如故障修复等),请勿对处于运行中状态的节点执行重启操作。

点击重启,在弹出界面选择普通重启强制重启

node-management_node_reboot

  • 普通重启:向节点上运行的操作系统(如CentOS)远程发送重启指令,由操作系统完成终止进程,系统重启等操作。相当于物理机按下Ctrl+Alt+Del触发的重启。
  • 强制重启:直接重启节点运行的虚拟机,相当于物理机按下Reset按钮。一般是普通重启无效时才使用强制重启方式。

重置节点

注意:如无特殊需要(如故障修复等),请勿对处于运行中状态的节点执行重置操作。

点开更多下拉菜单,点击重置节点。确认后即触发节点重置流程。

node-management_cluster_reset

重置节点的流程:

  1. 把当前节点恢复到刚创建ECS实例云服务器的初始状态
  2. 重新安装初始化E-HPC管控系统,如调度配置或域帐号管理配置等
  3. 重新安装E-HPC集群软件栈
  4. 加入E-HPC集群

当节点重启无法修复故障时可尝试重置节点。

删除节点

:仅计算节点可从集群移除,管控节点登录节点不可删除。且删除计算节点是目前集群缩容的唯一途径。若需增加计算节点,请参考集群扩容

点开更多下拉菜单,点击删除节点。确认后节点将停机释放。

node-management_node_delete

本文导读目录