应急预案:OSS物理机关机维修和系统重新克隆的方法

应急预案:OSS物理机关机维修和系统重新克隆的方法

更新时间:2020-07-01 12:52:40

1. 概述

本文主要介绍在专有云V3环境中,OSS物理机关机维修和系统重新克隆的解决方案。

1.1. 适用范围

  • 专有云V3企业版,OSS
    说明:适用于专有云V3.1~V3.8.1版本,并且KV版本为kv_sprint8.4。

1.2. 用户告知

  • 适用平台:x86
  • 授权级别:L2(二线技术支持工程师)
  • 临时或固化方案:固化
  • 操作复杂度:中
  • 业务影响:否
  • 风险等级:中
    说明
    • 如果目标机器是KV_Master,需要先替换KV_Master机器。
    • OSS物理机发生故障,每次只能下线一台,请合理安排窗口期。
    • 在机器下线过程中,需要对盘古ChunkServer上的数据做备份,请预留出足够的时间做变更。
    • 如果KV_Master不为3台或者5台,或者Checkready检查异常,需要联系阿里云技术支持获取帮助。
    • 如果出现不符合预期的情况,请联系阿里云技术支持获取帮助。

2. 问题描述

专有云V3环境中,遇到OSS物理机发生故障时,需要将故障机器下线进行修复,重新克隆后,再进行上线。

3. 解决方案

详情请参见以下KB文档。

  • KB 93471 通用方案:OSS物理机关机维修和系统重新克隆的方法