• 应急预案:MiniRDS多台物理机宕机的应急处理方法

应急预案:MiniRDS多台物理机宕机的应急处理方法

更新时间:2020-11-17 13:19

1. 概述

本文主要介绍在专有云V3环境中,MiniRDS多台物理机宕机时的应急处理方法。

1.1. 适用范围

  • 专有云V3企业版,MiniRDS

1.2. 用户告知

  • 适用平台:x86
  • 授权级别:L2(二线技术支持工程师)
  • 临时或固化方案:固化
  • 操作复杂度:中
  • 预估执行时长:20分钟
  • 业务影响:否
    说明:操作过程中如果该主机上有Master角色实例,则这个实例就不能对外提供服务。
  • 风险等级:中

2. 问题描述

MiniRDS物理机由于机器硬件问题或者其他的原因出现宕机的情况,需要按照应急方案进行操作。MiniRDS主机上存在的是云产品的元数据库,该主机上Master角色的实例如果满足主备切换的条件,将会自动进行切换。当机器宕机时,机器上的实例已经不提供服务,需尽快将机器启动。分布在机器上的云产品实例均不可服务,云产品功能会受到一定程度的影响。

3. 解决方案

3.1. 环境检查

登录天基控制台,选择监控中心>报警历史,查看是否有MiniRDS机器宕机的告警。如果存在MiniRDS机器的宕机告警,则执行本方案进行应急处理。

3.2. 实施步骤

  1. 登录天基控制台,在Project框中搜索maotai-mt,选择maotai-A-XXXX集群。
  2. 机器页签下搜索宕机的机器,单击机器右侧的Dashboard
  3. 机器详情页面,单击操作菜单右侧的下拉按钮,选择机器操作
  4. 操作机器页面,选择操作方式为带外重启,单击确认
  5. 在一台机器重启完成并确认正常之后,再重启另一台机器。

3.3. 结果验证

重启完成之后,确认机器能够正常登录,且机器上的MiniRDS实例可以正常登录。

4. 回滚方案

机器重启无回滚操作。