应急预案:专有云V3环境中重启drds-server容器的方法

应急预案:专有云V3环境中重启drds-server容器的方法

更新时间:2020-07-03 15:39:33

1. 概述

本文主要介绍在专有云V3环境中,重启drds-server容器的方法。

1.1. 适用范围

  • 专有云V3企业版,DRDS

1.2. 用户告知

  • 适用平台:x86、ARM
  • 授权级别:L2(二线技术支持工程师)
  • 临时或固化方案:临时
  • 操作复杂度:低
  • 预估执行时长:10分钟以内
    说明:具体时间根据实例重启的节点数控制。
  • 业务影响:是
    说明:操作过程中,请提交变更流程进行操作,禁止私自重启引发故障。
  • 风险等级:低

2. 问题描述

在运维过程中出现drds-server节点异常或请求超时等问题,需要重启drds-server容器以保证业务正常运行。

3. 解决方案

3.1. 环境检查

本文仅介绍重启drds-server容器的步骤,无环境检查。

3.2. 实施步骤

  1. 登录天基控制台,在Project框中搜索drds,单击集群右侧的集群运维中心,选择aliware-ark服务和ArkAgent#服务角色,单击机器右侧的Terminal,登录对应的机器。
  2. 执行以下命令,查找vlanID。
    docker --tls --tlscacert=/etc/docker/ca.pem --tlscert=/etc/docker/server-cert.pem --tlskey=/etc/docker/server-key.pem -H tcp://127.0.0.1:3376 network ls
    系统显示类似如下。
  3. 执行以下命令,查看drds-server容器的ID。
    docker --tls --tlscacert=/etc/docker/ca.pem --tlscert=/etc/docker/server-cert.pem --tlskey=/etc/docker/server-key.pem -H tcp://127.0.0.1:3376 network inspect [Vlan_ID]|grep -C5 [$IP]
    说明
    • [Vlan_ID]为上一步获取的vlanID。
    • [$IP]为drds-server容器的IP地址。
    系统显示类似如下。
  4. 执行以下命令,重启drds-server容器。
    docker --tls --tlscacert=/etc/docker/ca.pem --tlscert=/etc/docker/server-cert.pem --tlskey=/etc/docker/server-key.pem -H tcp://127.0.0.1:3376 restart [$Container_ID]
    说明:[$Container_ID]为上一步获取的容器ID。
    系统显示类似如下。

3.3. 结果验证

  1. 执行以下命令,进入drds-server容器。
    docker --tls --tlscacert=/etc/docker/ca.pem --tlscert=/etc/docker/server-cert.pem --tlskey=/etc/docker/server-key.pem -H tcp://127.0.0.1:3376 exec -it [$Container_ID] bash
    系统显示类似如下。
  2. 执行以下命令,进行健康检查。
    python /checkHealth.py
    系统显示类似如下。
  3. 执行以下命令,确认Java进程正常。
    ps -ef | grep java
    系统显示类似如下。

4. 回滚方案

重启节点无回滚方法,操作前需谨慎。