阿里云首页

通用方案:专有云V3环境AnalyticDB集群断电方法

1. 概述

本文介绍专有云V3环境中,AnalyticDB集群断电方法。

1.1. 适用范围

  • 专有云V3,AnalyticDB
    说明:适用于专有云V3.3及以上的版本。

1.2. 风险说明

AnalyticDB集群断电,服务将被停止使用,其数据服务依托盘古的基础服务,断电前需确保停止业务录入,保证盘古数据的安全、一致性,以免造成数据丢失。无其他产品依赖AnalyticDB服务,因此对其他产品无影响。

2. 问题描述

项目现场出于业务需要,如机房的搬迁、电力维修等情况,需要进行集群断电。

3. 解决方案

3.1. 环境检查

断电前检查

登录天基控制台,单击运维>集群运维,在集群框中搜索ads,确认AnalyticDB集群已达终态。

确认盘古服务正常

  1. 登录天基控制台,在左侧Project框中搜索ads,然后单击目标集群右侧的集群运维中心
  2. 选择ads-service服务,选择AdminGateway#服务角色,然后单击机器右侧的Terminal,进入机器。
  3. 执行以下命令,获取ads_ag容器ID。
    docker ps | grep ads-service.AdminGateway
  4. 执行以下命令,进入ads_ag容器。
    docker exec -it [$Container_ID] bash 
    说明:[$Container_ID]为上一步记录的容器ID。
  5. 依次执行以下命令。
    puadmin abnchunk fs -t none
    puadmin abnchunk fs -t onecopy
    puadmin abnchunk fs -t lessmin
    系统显示类似如下,若返回结果与下图中不一致,证明盘古已丢失数据,需要预先处理数据恢复操作。


3.2. 实施步骤

关闭迁移开关

登录Garuda Console,选择配置管理>高级>global>config>resourcemanager,将instanceShiftWorkerDisabled配置项的值改为true

说明true是关,false是开。

停止所有物理机中飞天服务

  1. 登录ads_ag容器,切换到admin用户,依次执行以下命令,停止所有物理机中的飞天服务,并确认所有返回值都SUCCESS即可。
    r ttrl |grep diskResource |awk '{print $1}' > tubo.list
    pssh -h tubo.list -i "/apsara/cloud/tool/tianji/apsarad stop"
  2. 执行以下命令,确认物理机中所有飞天服务状态为FAILED即可。
    pssh -h tubo.list -i "/apsara/cloud/tool/tianji/apsarad status"
    系统显示类似如下。
  3. 执行以下命令,进行物理机的断电关机操作。
    pssh -h tubo.list -i "init 0"

3.3. 结果验证

确认物理机已断电关机。

4. 回滚方案

无法回滚,集群下电后无法使用,只能进行上电恢复。

物理机上电开机

一般情况下飞天会自动开启,如果不能自启可以参考以下文档进行手动上电开机。

  • KB 131577 通用方案:专有云V3环境AnalyticDB集群的上电方法
首页 通用方案:专有云V3环境AnalyticDB集群断电方法