全部产品
云市场

节点管理

更新时间:2019-05-20 15:36:52

若您尚未拥有E-HPC集群,请先创建E-HPC集群

弹性高性能计算E-HPC的管理控制台提供了E-HPC集群节点相关的节点查询、重启、重置、删除、停机等功能,以及调度器管理功能,如节点队列创建、迁移、删除。

进入节点管控界面

进入E-HPC管理控制台,点选左侧栏的节点和队列标签,进入如下界面:

node-management_summary

选择节点

选出需要调整的节点主要有以下步骤:

1. 选择地域

关于地域的说明,请参考地域和可用区

节点所属集群所在的地域即为节点所在地域,需通过地域筛选出节点所在集群。

2. 选择集群

在地域标签下方,点击集群选择框旁边的下拉菜单,根据集群名称可选择节点所在的集群。

3. 选择节点类型

E-HPC集群主要有三种节点类型,可在节点类型按钮旁边的下拉框选择节点。

(1)管控节点,包括调度服务器和域帐户服务器。

  • 调度服务器:主要作用是运行PBS或SLURM等调度工具的服务端,处理作业提交、管理调度等。
  • 域帐户服务器:集中管理E-HPC集群内用户帐户。

(2)计算节点

  • 运行高性能计算作业的服务器,其配置决定了E-HPC集群总体性能。

(3)登录节点

  • E-HPC集群普通用户能够操作的唯一节点类型。您可在登录节点上进行软件调试、编译和安装,作业提交等操作。

管理节点

完成以上节点所在地域、集群以及节点类型选择后,您可从节点概要信息表中找到需要调整的节点,在右侧操作栏点击“重启”或“更多”按钮,进行重启节点、重置节点、删除节点、查看详情等操作;对于多个节点,可进行批量停机、启动、删除操作。

1. 重启节点

注意:如无特殊需要(如故障修复等),请勿对处于运行中状态的节点执行重启操作。

点击重启按钮,在弹出界面选择普通重启强制重启

node-management_node_reboot

  • 普通重启:向节点上运行的操作系统(如CentOS)远程发送重启指令,由操作系统完成终止进程,系统重启等操作。相当于物理机按下Ctrl+Alt+Del触发的重启。
  • 强制重启:直接重启节点运行的虚拟机,相当于物理机按下Reset按钮。一般是普通重启无效时才使用强制重启方式。

提醒:当节点重启无法修复故障时可尝试 重置节点

2. 重置节点

注意:如无特殊需要(如故障修复等),请勿对处于运行中状态的节点执行重置操作。

点开更多下拉菜单,点击重置节点按钮,确认后即触发节点重置流程:

  1. 把当前节点恢复到刚创建ECS实例云服务器的初始状态
  2. 重新安装初始化E-HPC管控系统,如调度配置或域帐号管理配置等
  3. 重新安装E-HPC集群软件栈
  4. 加入E-HPC集群

3. 删除节点

注意:仅计算节点可从集群移除,管控节点登录节点不可删除。且删除计算节点是目前集群缩容的唯一途径。若需增加计算节点,请参考集群扩容

  • 单个节点删除:点开更多按钮下拉菜单,点击删除节点按钮,确认后节点将释放。
  • 批量节点删除:勾选需要删除的计算节点,点击界面上方批量删除按钮,确认后选中节点将被全部释放。

4. 停机和启动

注意:仅计算节点可进行停机操作,管控节点登录节点不可停机。

E-HPC控制台支持批量节点的停机和启动操作。

  • 节点停机:首先,勾选需要停机的节点,然后点击上方停机按钮,确认后选中的节点将全部被停机。

  • 节点启动:同理,勾选需要启动的节点(说明:节点已处在停机状态,否则不可启动),点击上方启动按钮,确认后停机节点将在5分钟左右被全部启动。

节点启动推荐使用上面的方法。

除了以上启动方式外,您也可以进入云服务器ECS管理控制台,选择左侧的 实例 标签,跳转后选择您集群所在region,找到被停止的实例,点击 实例ID 进入停止实例页面,最后在右上角,点击启动按钮,启动该节点。操作完成之后,再去E-HPC管理控制台的节点界面,查看节点启动成功。

调度器管理

为更高效的管理大量运行作业的计算节点,E-HPC推出调度器管理功能,将运行不同作业或执行不同任务的节点进行分类,加入到不同的队列进行分类管理。如下图所示:

newqueue

首先,选择集群节点类型为计算节点,点击新建队列按钮,在弹出框输入队列名称,确认后队列创建完成。

说明:新建的队列,可以在”队列”栏的下拉框中查看。

其次,新创建的队列中不包含节点,您可以勾选需要移动到新队列的节点,然后点击移动到队列按钮,在弹出框选择目标队列,确认后即可完成迁移。

最后,删除不需要的队列时,只需要在“队列”栏选择需要删除的队列名称,然后点击删除队列按钮,确认后即可完成删除操作。

说明: 1. 默认队列不可删除;2. 使用pbs调度器的集群,队列中存在节点时不可删除;