应急预案:专有云环境PanguMaster#服务角色未达终态且存在“smaller logIdInNuwa”报错的处理方法

应急预案:专有云环境PanguMaster#服务角色未达终态且存在“smaller logIdInNuwa”报错的处理方法

更新时间:2020-08-10 14:56:50

1. 概述

在专有云环境中,pangu_master机器的状态为Disconnected,且日志中报smaller logIdInNuwa错误,本文主要介绍发生该问题的应急处理方法。

1.1. 适用范围

  • 专有云V2,盘古
  • 专有云V3,盘古

1.2. 用户告知

  • 适用平台:x86、ARM
  • 授权级别:L2(二线技术支持工程师)
  • 临时或固化方案:临时
  • 操作复杂度:低
  • 预估执行时长:15分钟
  • 业务影响:否
  • 风险等级:中
    说明:操作过程中风险低。

2. 问题描述

在pangu_master容器迁移、容器重拉和宿主机克隆的场景下,进程异常,导致PanguMaster#服务角色未达终态,本地CPT文件回退。经确认pangu_master机器的状态为Disconnected,且pangu_master.LOG日志文件中报smaller logIdInNuwa错误。

3. 解决方案

3.1. 环境检查

  1. 登录集群AG,执行以下命令,确认有一台pangu_master机器异常,状态为Disconnected。
    puadmin gems
    系统显示类似如下。
  2. 执行以下命令,查看pangu_master.LOG日志文件。
    说明:专有云V2环境日志文件在/apsara/pangu_master/目录下,专有云V3在/apsara/pangu_master/log/目录下,本文以V3环境为例。
    tail -100 /apsara/pangu_master/log/pangu_master.LOG
    系统显示类似如下,如日志FATAL信息是图中logId问题,说明是盘古本地logId小于nuwa中的ID导致master进程无法正常启动。

3.2. 实施步骤

登录集群AG服务器,切换到admin用户,执行以下命令,删除nuwa注册ID。

/apsara/deploy/nuwa_console --address=nuwa://localcluster/sys/pangu/volumes/PanguDefaultVolume/masterstate/[$IP]:10250 --command=rm

说明:[$IP]替换为Disconnected状态节点的IP地址。

系统显示类似如下。

说明:在pangu_master迁移或者宿主机克隆等场景,由于存在Bug,可能需要执行两次本步骤的命令。

3.3. 结果验证

  1. 登录集群AG服务器,执行以下命令,确认pangu_master机器恢复正常。
    puadmin gems 
    系统显示类似如下。
  2. 执行以下命令,确认SyncedLogld值相同。
    puadmin gss
    系统显示类如下。

4. 回滚方案

无需回滚,操作前的情况已是非正常状态。