通用方案:专有云V3环境中ECS产品管控服务相关进程异常时的临时处理方法

通用方案:专有云V3环境中ECS产品管控服务相关进程异常时的临时处理方法

更新时间:2020-06-09 10:19:06

1. 概述

本文主要介绍在专有云V3环境中,ECS产品管控服务相关进程异常时的临时处理方法。

1.1. 适用范围

  • 专有云V3,ECS
    说明:适用于专有云V3.0.0-V3.10.0环境,包含V3.0.0及其V3.10.0环境。

1.2. 用户告知

  • 预估执行时长:60分钟
  • 操作复杂度:低
  • 风险等级:低
    说明:管控服务相关进程或者容器都是高可用的,故风险低。

2. 问题描述

ECS产品管控服务相关进程异常终止或者无响应,均会影响ECS产品的使用。本文介绍如何排查进程日志及重启相关进程。

3. 解决方案

3.1. 环境检查

本文以ecs-houyi服务Regionmaster#角色相关进程异常终止为例。

  1. 登录天基控制台,选择任务>部署概况>部署详情
  2. 确认ECS产品的部署状态未达终态
  3. 单击详情,确认ecs-houyi服务未达终态。
  4. 单击Regionmaster#角色,在机器列表页面,单击服务角色的状态,确认角色状态异常。
  5. 单击监控统计栏的红色感叹号,可以查看详细报错信息。
  6. 在机器列表页面,单击角色右侧的Terminal按钮。
  7. 登录regionmaster容器。依次执行以下命令,进行健康检查,确认返回值为255。
    /checkHealth.py
    echo $?
  8. 执行以下命令,查看进程列表。
    ps -ef
    系统返回类似如下。

    对比正常regionmaster容器内的进程,确认缺少一个Java进程。

3.2. 实施步骤

  1. 在机器列表页面,单击DashBoard按钮。
  2. 确认角色状态异常的机器,单击重启服务角色,在弹出的确认框中单击确认,进行重启。

3.3. 结果验证

  1. 登录天基控制台,选择任务>部署概况>部署详情
  2. 确认ECS产品的部署状态已达终态
  3. 单击详情链接,确认ecs-houyi服务Regionmaster#角色状态正常。

4. 回滚方案

无需回滚,操作前的情况已是非正常状态。