应急预案:专有云V3环境中停止tianji-test服务的方法

应急预案:专有云V3环境中停止tianji-test服务的方法

更新时间:2020-06-11 16:03:37

1. 概述

本文主要介绍在专有云V3环境中,停止tianji-test服务的方法。

1.1. 适用范围

  • 专有云V3企业版,天基
    说明:适用于专有云V3.8和V3.9环境。

1.2. 用户告知

  • 适用平台:x86、ARM
  • 授权级别:L1(一线驻场工程师)
  • 临时或固化方案:固化
  • 操作复杂度:中
  • 业务影响:否
  • 风险等级:中
    说明:tianji_test为测试容器,无风险。

2. 问题描述

在专有云V3环境中,对于以下2种情况,可以考虑关闭tianji-test服务。

  • 现场环境经常出现tianji_test容器未达终态,且会存在残留的test_tianji_xxx集群。
  • 现场环境,OPS1~3机器出现由于OOM导致tj_proxy被结束的情况,可以关闭tianji_test并清理其Rolling任务,清理方案请参见以下KB文档。
    • KB 164364 应急预案:专有云V3环境中如何清理test-tianji集群的Rolling任务

3. 解决方案

3.1. 环境检查

  1. 登录天基控制台,确认tianji集群已达终态,尤其要确保OPS1上TianjiClient#服务角色已达终态。
  2. 登录OPS服务器,关于如何登录OPS服务器,请参见专有云如何登录OPS服务器
  3. 执行以下命令,确认tianji_test容器存在,且容器状态正常。
    docker ps|grep tianji_test
    系统显示类似如下。

3.2. 实施步骤

  1. 登录天基控制台,在Project框中搜索tianji,单击tianji集群右侧的集群配置文件,在/services/tianji-test/user目录中创建stoprune2e文件。
    说明:如没有user目录,则需要手动创建。
  2. 在文件中写入内容为stop tianji-test,单击预览并提交
  3. 在确认提交页面,本次更改描述中填写stop tianji-test,提交Rolling。

3.3. 结果验证

  1. 登录天基控制台,在Project框中搜索tianji,单击tianji集群右侧的监控>操作日志
  2. 查看天基集群的操作日志,确认本次Rolling成功。
  3. 登录天基控制台,选择tianji-test服务和ServiceTest#服务角色,单击机器右侧的Terminal,登录对应的机器。
  4. 执行以下命令,观察tianji_test容器最近时间的日志,确认都为stop run,说明成功。
    docker logs $(docker ps -a | grep tianji_test | awk '{print $1}')
    注意
    • 如果Rolling成功后,容器依旧处于runing状态,则可以尝试执行docker stop [$Container_ID]命令,手动关闭该容器,然后再次使用docker logs命令查看。
    • [$Container_ID]为tianji_test容器ID。

4. 回滚方案

在天基控制台,将添加在集群配置文件中的/services/tianji-test/user/stoprune2e文件删除,然后再单击预览并提交,等待Rolling成功即可。