应急预案:专有云V3环境中rds_dms_app容器自检失败或一直处于检测中的修复方法

1. 概述

本文主要介绍在专有云V3环境中,rds_dms_app容器自检失败或一直处于检测中的修复方法。

1.1. 适用范围

  • 专有云V3企业版,基础服务
    说明:适用于专有云V3.0.0~V3.5.0环境,包含V3.0.0和V3.5.0环境。

1.2. 用户告知

  • 适用平台:x86、ARM
  • 授权级别:L2(二线技术支持工程师)
  • 临时或固化方案:临时
  • 操作复杂度:低
  • 预估执行时长:30分钟
  • 业务影响:否
    说明:操作过程中风险低,灰度重启即可。
  • 风险等级:低

2. 问题描述

在专有云V3.5版本之前,rds_dms_app容器的内存都是2GB,会造成内存溢出,导致DMS服务检测失败,或者一直在检测中,并且在DMS上无法登录RDS实例。

3. 解决方案

3.1. 环境检查

  1. 登录天基控制台,确认webapp-dms_service服务中RdsDmsApp#服务角色对应的机器处于检测中或者检测失败的状态。
  2. Project框中过滤webapp,单击集群右侧的集群运维中心,选择webapp-dms_service服务和RdsDmsApp#服务角色,单击机器右侧的Terminal,登录对应的机器。
  3. 登录rds_dms_app容器,执行以下命令,查看对应容器的内存。
    free -m
    系统显示类似如下。

3.2. 实施步骤

  1. 登录天基控制台,在服务页签下搜索webapp,单击webapp-dms_service服务右侧的运维
  2. 在对应的服务页面,单击服务所在的集群名,进入服务实例的详情页面。
  3. 服务角色列表区域,单击RdsDmsApp#服务角色右侧的详情
  4. 机器信息区域,单击机器右侧的重启服务角色
    说明:需灰度重启,重启完一台后再重启另外一台。

3.3. 结果验证

登录天基控制台,在webapp-dms_service服务中,确认RdsDmsApp#服务角色对应的机器状态为GOOD,即表示机器恢复正常状态。

4. 回滚方案

无需回滚,操作前的情况已是非正常状态。