通用方案:专有云V2环境AnalyticDB集群断电方法

通用方案:专有云V2环境AnalyticDB集群断电方法

更新时间:2020-06-24 18:24:01

1. 概述

本文介绍专有云V2环境中,AnalyticDB集群断电方法。

1.1. 适用范围

  • 专有云V2,AnalyticDB

1.2. 风险说明

AnalyticDB集群断电,服务将被停止使用,其数据服务依托盘古的基础服务,断电前需确保停止业务录入,保证盘古数据的安全、一致性,以免造成数据丢失。无其他产品依赖AnalyticDB服务,因此对其他产品无影响。

2. 问题描述

项目现场出于需要,如机房的搬迁、电力维修等情况,需要进行集群断电。

3. 解决方案

3.1. 环境检查

在天目控制台上检查AnalyticDB集群是否到达终态

登录天目控制台,确认apsara_service--ads-XXXX集群和ads_service--ads-XXXX集群正常。如有异常,请先进行修复。

确认盘古服务正常

说明:确保以下步骤中没有数据返回,如果有返回且与以下图中内容不一致,则盘古服务异常,需预先处理该问题后再进行断电实施步骤。

  1. 登录ads_ag容器,关于如何登录ads_ag容器,请参见专有云V2环境中如何登录容器
  2. 执行以下命令,查看none级别的abnchunk。
    /apsara/deploy/puadmin fs -abnchunk -t none
    系统显示类似如下。
  3. 执行以下命令,查看onecopy级别的abnchunk。
    /apsara/deploy/puadmin fs -abnchunk -t onecopy
    系统显示类似如下。
  4. 执行以下命令,查看lessmin级别的abnchunk。
    puadmin fs -abnchunk -t lessmin
    系统显示类似如下。

3.2. 实施步骤

关闭迁移开关

  1. 登录Garuda Console,登录地址为http://[$ADS_AG_IP]:8080/console-dev
    说明:[$ADS_AG_IP]为ads_ag容器的IP地址。
  2. 选择配置管理>高级>global>config>resourcemanager,将instanceShiftWorkerDisabled配置项的值改为true
    说明:true是关,false是开。

停止所有物理机中飞天服务

  1. 登录ads_ag容器,切换到admin用户,依次执行以下命令,停止所有物理机中的飞天服务,并确认所有返回值都SUCCESS即可。
    /home/admin/dayu/bin/allapsara stop
    r ttrl |grep diskResource |awk '{print $1}' > tubo.list
  2. 执行以下命令,确认物理机中所有飞天服务状态为FAILED即可。
    pssh -h tubo.list -i "/home/admin/dayu/bin/apsara status"
    系统显示类似如下。
  3. 执行以下命令,对物理机进行断电。

    pssh -h tubo.list -i "init 0"

3.3. 结果验证

确认集群所有机器已断电,业务无法正常使用。

4. 回滚方案

无法回滚,集群断电后无法使用,只能进行上电恢复。请参见以下文档进行手动上电开机。

  • KB 131278 通用方案:专有云V2环境AnalyticDB集群的上电方法