阿里云首页 弹性高性能计算E-HPC

修复集群

当集群或者集群节点处于异常状态时,可对集群进行修复操作。本文介绍如何修复集群。

前提条件

  • 修复集群功能默认关闭,如需使用,请提交工单

  • 已导出作业数据。

注意事项

修复集群会对集群产生一定影响,具体说明如下:

  • 集群修复过程中,集群所有节点执行更换系统盘的操作,默认按创建集群时的配置重新配置系统盘。

  • 修复集群后,集群自建队列被清除,节点继续保留,并全部迁移到集群默认队列中。

  • 修复集群后,集群所有节点的系统盘和数据盘数据将会丢失,包括用户信息、作业信息、调度器队列信息、自动伸缩队列配置信息,但文件存储NAS上的数据仍然保留。

操作步骤

  1. 登录弹性高性能计算控制台

  2. 在顶部菜单栏左上角处,选择地域。

  3. 在左侧导航栏,单击集群

  4. 集群页面,选择待修复集群,单击更多 > 修复

  5. 在弹出的集群修复页面,重新指定待修复集群的镜像类型镜像调度器域账号服务

    默认使用创建集群时相关配置。

  6. 单击确定。

执行结果

执行修复后,将自动返回到集群页面,您可以在该页面查看集群状态。当集群状态为安装中,表示集群已经开始修复。当集群状态为运行中,表示集群修复已完成。