应急预案:专有云V3环境中baseService-umm-ak服务异常的应急恢复方法

应急预案:专有云V3环境中baseService-umm-ak服务异常的应急恢复方法

更新时间:2020-06-22 15:45:24

1. 概述

本文主要介绍专有云环境中,baseService-umm-ak服务异常的应急恢复方法。

1.1. 适用范围

  • 专有云V3企业版,基础服务设备
    说明:适用于专有云V3.0~V3.10环境。

1.2. 用户告知

  • 适用平台:x86
  • 授权级别:L1(一线驻场工程师)
  • 临时或固化方案:固化
  • 操作复杂度:低
  • 预估执行时长:10分钟
  • 业务影响:否
  • 风险等级:低
    说明:风险等级低,注意灰度操作。

2. 问题描述

快速排查baseService-umm-ak服务出现的问题,并在应急情况下修复问题。

3. 解决方案

3.1. 环境检查

  1. 登录天基控制台,在Project框中搜索baseServiceAll,单击集群右侧的Dashboard,在资源状态表区域,过滤NameummTypedns,查看对应的域名。
  2. 登录OPS服务器,执行以下命令,检查umm-ak服务是否正常。
    curl http://[$Umm]/ak
    说明:[$Umm]为上一步获取的域名。
    系统显示类似如下,返回结果是正常的。
    {"error":"Forbidden","message":"The HTTP header 'date' is not specified.","requestid":"0A45CA28-2B3A-41EB-85B9-16E62CE37E5B"}

3.2. 实施步骤

  1. 登录天基控制台,检查baseService-umm-ak服务的AliyunidAppaccess#服务角色是否正常。
  2. 根据现场实际情况,进行以下操作:
    • 如果检查出现两个机器都是异常,请联系阿里云技术支持获取帮助。
    • 如果检查出一个AliyunidAppaccess#服务角色对应的机器正常,一个未达终态,可以通过重启有问题的AliyunidAppaccess#服务角色,快速恢复角色的高可用。

3.3. 结果验证

在天基控制台,确认baseService-umm-ak服务已达终态。

4. 回滚方案

重启容器无回滚方案。