应急预案:专有云V3环境中管控平台无法登录的应急处理方法

应急预案:专有云V3环境中管控平台无法登录的应急处理方法

更新时间:2020-07-15 10:45:13

1. 概述

本文主要介绍在专有云V3环境中,管控平台无法登录的应急处理方法。

1.1. 适用范围

  • 专有云V3企业版,专有云控制台
    说明:适用于专有云V3.0~3.10环境。

1.2. 用户告知

  • 适用平台:x86、ARM
  • 授权级别:L1(一线驻场工程师)
  • 临时或固化方案:固化
  • 操作复杂度:低
  • 预估执行时长:1小时
  • 业务影响:否
  • 风险等级:低
    说明
    • 所有服务都是两个容器依次执行,没有风险。
    • 本方案是针对一些常见故障场景的应急处理方法,以下重启服务步骤仅限应急故障场景使用。
    • 本文中的管控平台包括专有云控制台、ASO控制台、MiniRDS运维管理控制台。

2. 问题描述

由于baseService-aas服务的AccountLiteWebAliyunCom#服务角色和baseService-umm-ak服务的AliyunidAppaccess#服务角色异常,导致所有管控平台无法登录。

3. 解决方案

3.1. 环境检查

检查服务终态情况和磁盘使用情况,操作步骤如下:

  1. 登录天基控制台,确认baseService-aas服务的AccountLiteWebAliyunCom#服务角色已达终态。
  2. 确认baseService-umm-ak服务的AliyunidAppaccess#服务角色已达终态。
  3. Project框中过滤baseServiceAll,单击集群右侧的集群运维中心
  4. 选择baseService-aas服务和AccountLiteWebAliyunCom#服务角色,单击机器右侧的Terminal,登录对应的机器,进入account-lite-web-aliyun-com容器,执行以下命令,查看磁盘使用率。
    df -h
  5. 选择baseService-umm-ak服务和AliyunidAppaccess#服务角色,单击机器右侧的Terminal,登录对应的机器,进入aliyunid_appaccess容器,执行以下命令,查看磁盘使用率。
    df -h
  6. 登录MiniRDS物理机,检查磁盘使用情况,特别是u02目录的使用情况。

3.2. 实施步骤

3.2.1. aas服务

磁盘使用率高的处理方法

详情请参见以下KB文档,处理磁盘使用率高的情况。如果磁盘使用率正常,请跳过此小节的操作,执行重启aas服务的操作。

  • KB 107380 通用方案:专有云环境清理account-lite-web-aliyun-com容器的日志文件
重启aas服务
  1. 进入account-lite-web-aliyun-com容器,执行以下命令,进行健康检查。
    /alidata/bin/check_health
    系统显示类似如下,说明健康检查失败。
  2. 执行以下命令,重启应用服务。
    /etc/init.d/jetty start
    系统显示类似如下,说明重启成功。

3.2.2. umm-ak服务

磁盘使用率高的处理方法

详情请参见以下KB文档,处理磁盘使用率高的情况。如果磁盘使用率正常,请跳过此小节的操作,执行重启umm-ak服务的操作。

  • KB 94586 通用方案:专有云V3环境中如何清理aliyunid_appaccess容器的日志文件
  • KB 102975 通用方案:baseService集群中aliyunid_appaccess容器的Jetty日志清理
重启umm-ak服务
  1. 进入aliyunid_appaccess容器,执行以下命令,启动服务。
    /etc/init.d/jetty start
  2. 执行以下命令,进行健康检查,正常返回值OK。
    curl http://umm.aliyun.com/check_health
  3. 执行以下命令,检查umm-ak服务是否正常。
    curl http://umm.aliyun.com/ak
    系统显示类似如下,返回结果正常。
    {"error":"Forbidden","message":"The HTTP header 'date' is not specified.","requestid":"0A45CA28-2B3A-41EB-85B9-16E62CE37E5B"}
  4. 健康检查返回OK且服务正常后,重启另一个aliyunid_appaccess容器。

3.2.3. MiniRDS

MiniRDS磁盘满的处理方法如下:
问题原因:物理机上u02是日志目录盘,主要存放实例的Binlog日志或者是relay-log日志。该目录被写满的主要原因是由于Binlog没有及时的被清理,或者是备库的中继日志relay-log没有清理。

解决方案

  • Binlog没有及时清理导致堆积,可以先在主备库执行以下SQL语句,查看主备状态。查看主备是否报错,如果报错,可以先处理主备问题。
    show slave status\G
  • relay-log没有及时清理,可以先手动备份,然后删除日志文件,清理磁盘空间,等待恢复以后,再进行备库重搭。
    说明u02目录下是以data开头的文件,后面的30XX代表的是实例的端口号,可以根据端口号还有主机IP在MiniRDS运维管理控制台上找到对应的实例。

3.2.4. 专有云控制台相关服务

专有云控制台相关的uim、cas、manage服务异常时,可参见以下操作步骤进行处理,uim、cas、manage服务重启的操作步骤如下:

  1. 分别进入uim、cas、manage容器,执行以下命令,查看tomcat进程ID。
    ps -ef |grep tomcat
  2. 当tomcat进程存在时,执行以下命令,结束tomcat进程。
    kill -9 [$Tomcat_PID]
  3. 执行以下命令,启动tomcat进程。
    /opt/tomcat7/bin/startup.sh
  4. 重启后等待3分钟,然后执行以下命令,运行健康检查脚本,确认返回OK。
    /alidata/bin/check_app.sh
  5. 健康检查返回OK后,重启另一台容器中的服务。

3.3. 结果验证

确认专有云控制台、ASO控制台、MiniRDS运维管理控制台可以正常登录访问。

4. 回滚方案

此方案为应急处理方案,不需要回滚。