应急预案:专有云V3环境天基控制台内RDS服务未达终态

1. 概述

本文主要在专有云V3环境中,天基控制台内RDS服务未达终态的解决方法。

1.1. 适用范围

  • 专有云V3,RDS

1.2. 用户告知

  • 适用平台:x86、ARM
  • 授权级别:L1(一线驻场工程师)
  • 临时或固化方案:固化
  • 操作复杂度:中
  • 预估执行时长:6小时
  • 业务影响:否
  • 风险等级:中
    说明:影响RDS的管控功能操作。

2. 问题描述

在天基控制台中RDS服务组件未达终态,导致一些管控功能无法使用,需要对该组件进行重启,重启管控功能不影响用户业务。

3. 解决方案

3.1. 环境检查

  1. 登录天基控制台,选择任务>部署概况,单击部署详情,找到rds产品。
  2. 选择详情>gpdb-yaochi-A-XXX集群>gpdb-yaochi服务>ServiceTest#服务角色,确认角色未达终态。
    说明:本文以ServiceTest#服务角色未达终态为例,其它管控容器也是一样的操作步骤。
    Dingtalk_20210224172058.jpg
  3. 登录天基控制台,在Project框中搜索rds,单击gpdb-yaochi-A-XXX集群右侧的集群运维中心,选择gpdb-yaochi服务和ServiceTest#服务角色,单击机器右侧的Terminal,登录对应的机器。
  4. 执行以下命令,查看service_test容器的状态并记录容器ID。
    docker ps -a grep test
    系统显示类似如下,确认service_test容器为运行状态。
    Dingtalk_20210224173154.jpg

3.2. 实施步骤

登录ServiceTest#服务角色对应的机器,执行以下命令,重启service_test容器。

docker restart [$Container_ID]
说明:[$Container_ID]为环境检查中获取的service_test容器ID。
  • 观察该容器在天基控制台中是否已达终态,确认容器已达终态则无需处理。
  • 若该容器在天基控制台中未达终态,请参见下列步骤,进行修复:
    1. 登录天基控制台,选择任务>部署概况,单击部署详情,找到rds产品。
    2. 选择详情>gpdb-yaochi-A-XXX集群>gpdb-yaochi服务,单击ServiceTest#服务角色右侧的叉号按钮。
    3. 机器列表页面,单击监控统计下面的感叹号按钮,查看该容器的服务报告,提示检测脚本未通过。
      Dingtalk_20210225103953.jpg
    4. 然后根据报错信息,查看该容器的检测脚本,在容器内执行检测脚本。
    5. 若该容器一直反复重启,仍未达终态,请在ServiceTest#服务角色对应的机器中,执行以下命令,删除service_test容器,等待天基自动拉起。
      docker rm [$Container_ID]
      说明:执行该操作之前,请和阿里云技术支持确认后方可执行该操作。 

3.3. 结果验证

  1. 登录天基控制台,选择任务>部署概况,单击部署详情,找到rds产品。
  2. 选择详情>gpdb-yaochi-A-XXX集群>gpdb-yaochi服务>ServiceTest#服务角色,确认角色已达终态。

4. 回滚方案

操作前已是非正常状态,无需回滚。