通用方案:专有云V3环境的Inner_OTS集群中服务启动和停止的方法

通用方案:专有云V3环境的Inner_OTS集群中服务启动和停止的方法

更新时间:2020-06-24 18:33:20

1. 概述

本文主要介绍在专有云V3环境,Inner_OTS集群中服务的启动和停止方法。

1.1. 适用范围

  • 专有云V3,OTS

    说明:适用于专有云V3环境下的Inner_OTS集群。

1.2. 风险说明

停止OTS服务后,OTS业务的上层调度者Blink、SLS、Max Compute等均不可使用OTS业务。

1.3. 用户告知

停止飞天服务前,必须先停止OTS服务。

2. 问题描述

在专有云V3环境中,某些情况下需要启动和停止Inner_OTS集群中的服务。比如专有云V3环境中系统时间与标准时间不一致,需要停止服务修改NTP时间,然后重新启动服务。

3. 解决方案

3.1. 环境检查

天基上Inner_OTS集群的服务已达终态

登录天基控制台,搜索tianji集群,单击tianji-xxx-x-xxxxxx>Dashboard,在服务实例列表区域中,筛选出服务实例关键字为TableStore的实例,在是否到终态中确认这些实例已到达终态。

确认分区已加载完毕

  1. 登录天基控制台,搜索tianji集群,单击tianji-x-xxxxxx>服务>TableStoreSqlInner>Dashboard,在服务角色列表区域中,单击UpgradeSql#服务角色相对应操作列表下的详情

  1. 机器信息区域,单击服务器右侧的终端,登录UpgradeSql#服务角色对应机器。

  1. 切换到admin用户,执行以下命令,检查分区是否加载完毕。

    sql cpl

    系统返回如下,说明分区已加载完毕。

3.2. 实施步骤

3.2.1. 停止OTS服务

同步内存数据以保障数据安全性
  1. 登录UpgradeSql#服务角色对应的机器,执行以下命令,遍历所有的表,强制同步到磁盘。

    for x in `sql lt | sed 1d| awk '{print $1}'`; do sql "st -t $x"; done

    系统返回类似如下。

  1. 执行以下命令,确认返回结果为OK。

    sql "sm"

    系统返回类似如下。

  1. 执行以下命令,保存集群配置。

    r plan sqlonline-OTS > /home/admin/sqlonline.json
停止sqlonline-OTS服务

执行以下命令,停止sqlonline-OTS服务。

r sstop sys/sqlonline-OTS

系统返回类似如下。

connecting to nuwa://localcluster/sys/fuxi/master/ForChildMaster
connected
Method=StopWorkItem
Parameter=nuwa://localcluster/sys/sqlonline-OTS/ServiceMaster
TraceId=0
TraceLogLevel=ALL
OK
停止飞天服务
  1. 切换到admin用户,依次执行以下命令,停止所有物理机上的飞天服务。

    tj_show -r TableStoreInner.OTSServer# >/tmp/ots_inner_nc_list
    pssh -h /tmp/ots_inner_nc_list -i '/apsara/cloud/tool/tianji/apsarad stop'
  1. 执行如下命令,确定飞天服务为停止状态。

    pssh -h /tmp/ots_inner_nc_list -i '/apsara/cloud/tool/tianji/apsarad status'
停止验证

执行以下命令,获取分区加载列表。

sql cpl

系统返回类似如下。

Exception occurred :;GetChannel fail for 
address: nuwa://localcluster:10240/sys/sqlonline-OTS/master

3.2.2. 恢复OTS服务

启动飞天服务
  1. 登录UpgradeSql#服务角色对应机器,切换到admin用户执行如下命令,启动所有物理机上的飞天服务。

    pssh -h /tmp/ots_inner_nc_list -i '/apsara/cloud/tool/tianji/apsarad start'
  1. 执行如下命令,确认飞天服务为已启动状态。

    pssh -h /tmp/ots_inner_nc_list -i '/apsara/cloud/tool/tianji/apsarad status'
启动OTS服务
  1. 待NTP时间调整完毕后,登录天基控制台,搜索tianji集群,单击tianji-x-xxxxxx>服务>TableStoreSqlInner>Dashboard,在服务角色列表区域,单击UpgradeSql#服务角色相对应操作列表下的详情

    注意:NTP时间调整完毕后,需至少等待30分钟后再启动OTS服务。例如NTP时间向后调整50分钟,则NTP时间调整后至少等待1小时20分钟再启动OTS服务。

  1. 机器信息区域,单击服务器右侧的重启服务角色

3.3. 结果验证

恢复验证

  1. UpgradeSql#服务角色重启5分钟后,进入UpgradeSql#服务角色对应的机器,切换到admin用户,执行以下命令,检查分区是否加载完毕

    sql cpl

    系统返回类似如下,说明分区已加载完毕。

  1. 登录天基控制台,搜索tianji集群,单击tianji-xxx-x-xxxxxx>服务>TableStoreInner>Dashboard,单击ServiceTest#服务角色右侧对应操作列表下的详情

  1. 机器信息模块下,单击服务器右侧的重启服务角色

  1. 登录天基控制台,搜索tianij集群,单击tianji-xxx-x-xxxxxx>服务>TableStoreInner>Dashboard,确认服务角色列表模块下的ServiceTest#服务角色的当前状态已达终态

4. 回滚方案

无需回滚,不涉及数据修改。