应急预案:专有云V3环境中virtualmaster管控服务异常的应急处理方法

1. 概述

本文主要介绍在专有云V3环境中,virtualmaster管控服务异常的应急处理方法。

1.1. 适用范围

  • 专有云V3企业版,VPC

1.2. 用户告知

  • 适用平台:x86
  • 授权级别:L1(一线驻场工程师)
  • 临时或固化方案:临时
  • 操作复杂度:低
  • 预估执行时长:60分钟
  • 业务影响:否
  • 风险等级:低
    说明:管控服务相关进程或者容器都是高可用的,故风险低。

2. 问题描述

VPC产品的virtualmaster管控服务相关进程异常终止或者无响应,均会影响VPC产品的使用。本文主要介绍如何查看进程日志及重启相关进程。

3. 解决方案

3.1. 环境检查

  1. 登录天基控制台,选择任务>部署概况,单击部署详情,确认VPC产品的部署状态为未达终态。
  2. 找到VPC产品,单击详情,选择vpcRegionCluster-XXX集群>vpc-controller服务>virtualmaster#服务角色,确认服务角色未达终态。
  3. 单击监控统计栏的红色感叹号,可以查看详细报错信息。
  4. 返回机器列表页面,单击角色右侧的Terminal按钮。
  5. 执行以下命令,查看virtualmaster容器ID。
    docker ps|grep virtualmaster
  6. 执行以下命令,进入virtualmaster容器。
    docker exec -it [$Container_ID] bash
    说明:[$Container_ID]为上一步获取的virtualmaster容器ID。
  7. 依次执行以下命令,进行健康检查,确认返回值为1。
    /checkHealth.py
    echo $?
    系统显示类似如下。

3.2. 实施步骤

  1. 登录天基控制台,在Project框中搜索vpc,单击VpcRegionCluster-XXXX集群右侧的集群运维中心
  2. 选择vpc-controller服务和Virtualmaster#服务角色。
  3. 确认服务角色状态异常的机器,单击SR重启,在弹出的确认框中单击确认,进行重启。

3.3. 结果验证

  1. 登录天基控制台,选择任务>部署概况,单击部署详情
  2. 找到VPC产品,在右侧单击详情,确认vpc-controller服务的Virtualmaster#服务角色状态恢复正常。

4. 回滚方案

无需回滚,操作前的情况已是非正常状态。