应急预案:Redis单台物理机宕机的应急处理方法

应急预案:Redis单台物理机宕机的应急处理方法

更新时间:2020-09-08 12:37:45

1. 概述

本文主要介绍在专有云V3环境中,Redis单台物理机宕机时的应急处理方法。

1.1. 适用范围

  • 专有云V3企业版,Redis

1.2. 用户告知

  • 适用平台:x86、ARM
  • 授权级别:L2(二线技术支持工程师)
  • 临时或固化方案:固化
  • 操作复杂度:低
  • 预估执行时长:30分钟
  • 业务影响:是
    说明:Redis实例输出均为高可用,在宕机一台的情况下实例会进行HA(Highly Available)切换,有另外的机器提供服务,但此时实例出于单点状态,需尽快启动机器,同时在实例宕机切换的过程中,实例连接会发生中断。
  • 风险等级:中

2. 问题描述

在天基控制台中发生告警,确认为Redis实例的物理机宕机。

3. 解决方案

3.1. 环境检查

确认天基控制台可正常使用。

3.2. 实施步骤

在天基控制台的处理方法

说明:在天基控制台操作带外重启,会下发Action,该机器上的服务角色会依次审批Action,全部审批完毕后才会执行重启操作。

  1. 登录天基控制台,选择运维>机器运维,过滤异常机器的主机名,单击机器右侧的机器操作
  2. 操作机器提示框中,选择带外重启,单击确认

在带外控制台的处理方法

注意:不同厂家带外控制台界面有所不同,若带外控制台不通,则需立即联系机房工程师,现场协助重启。

  1. 在浏览器中输入需要重启的物理机带外IP,登录带外控制台。
  2. 单击远程控制>服务器开关机控制台,选择重启服务器,执行重启操作。

    通过H3C服务器登录带外控制台的操作方法如下:选择电源管理中的服务器电源,单击强制系统重置右侧的重置

3.3. 结果验证

确认机器能够正常登录,且机器上的Redis实例可以正常登录。

4. 回滚方案

无需回滚,操作前的情况已是非正常状态。