应急预案:专有云环境AnalyticDB产品RM节点重启的方法

应急预案:专有云环境AnalyticDB产品RM节点重启的方法

更新时间:2020-07-30 12:38:51

1. 概述

本文主要介绍在专有云环境中,AnalyticDB产品RM节点重启的方法。

1.1. 适用范围

  • 专有云V2企业版,AnalyticDB
    说明:适用于专有云V2.0.0~V2.5.0环境,包含V2.0.0和V2.5.0环境。
  • 专有云V3企业版,AnalyticDB
    说明:适用于专有云V3.0.0及其以上版本。

1.2. 用户告知

  • 适用平台:x86
  • 授权级别:L2(二线技术支持工程师)
  • 临时或固化方案:固化
  • 操作复杂度:低
  • 预估执行时长:6小时
  • 业务影响:否
    说明:RM为主备两个节点,分别重启,客户业务无感知。
  • 风险等级:中

2. 问题描述

AnalyticDB表上线任务持续失败,RM(Resource Manager)调度出现异常,且无法自动恢复。

3. 解决方案

3.1. 环境检查

  1. 访问以下链接,登录Garuda Console。
    http://[$Ads_AG_IP]:8080/console-dev
    说明:[$Ads_AG_IP]为AdminGateway#服务角色对应的容器IP。
  2. 单击配置管理,依次选择高级>dbmg>service,主RM所在节点master的值为true,备RM所在节点master的值为false

3.2. 实施步骤

  1. 登录备RM节点,依次执行以下命令,重启RM服务。
    sh /home/admin/analyticdb/bin/startup.sh stop
    sh /home/admin/analyticdb/bin/startup.sh start
  2. 登录主RM节点,依次执行以下命令,重启RM服务。
    sh /home/admin/analyticdb/bin/startup.sh stop
    sh /home/admin/analyticdb/bin/startup.sh start

3.3. 结果验证

  1. 登录Garuda Console,单击配置管理,依次选择高级>dbmg>service,确认主RM所在节点master的值为true,备RM所在节点master的值为false
  2. 确认AnalyticDB表上线任务的业务恢复正常。

4. 回滚方案

业务恢复操作,无需回滚。