通用方案:专有云控制台服务异常的应急处理方法

通用方案:专有云控制台服务异常的应急处理方法

更新时间:2020-08-10 15:20:18

1. 概述

本文主要介绍专有云V3环境中,专有云控制台服务异常的应急处理方法。

1.1. 适用范围

  • 专有云V3,专有云控制台

1.2. 风险说明

2个容器依次执行操作,无风险。

2. 问题描述

本文为专有云控制台服务异常的应急处理方案,针对一些常见故障场景给出应急处理方法,重启服务步骤仅限应急故障场景使用。

3. 解决方案

3.1. 环境检查

cas域名访问异常

  1. 登录OPS1机器,确认cas域名可以Ping通。
  2. 确认webappAll集群到达终态并且依赖的集群正常,如果异常请优先修复依赖的集群,特别是RAM集群。
  3. 确认杜康控制台上uim、manage、cas数据库健康状态正常。

manage域名访问异常

manage访问异常,但是cas输入用户名密码可以访问,但跳转manage异常。

  1. 登录OPS1机器,确认manage域名可以Ping通。
  2. 确认webappAll集群到达终态并且依赖的集群正常,如果异常请优先修复依赖的集群,特别是RAM集群。
  3. 确认杜康控制台上uim、manage、cas数据库健康状态正常。

cas页面登录异常

平台断电恢复,访问cas页面,输入正确的用户信息,不能登录。

  1. 登录OPS1机器,确认cas域名和manage域名可以Ping通。
  2. 确认webappAll集群到达终态并且依赖的集群正常,如果异常请优先修复依赖的集群,特别是RAM集群。
  3. 确认杜康控制台上uim、manage、cas数据库健康状态正常。

3.2. 实施步骤

cas域名访问异常

重启cas服务,依次登录2个cas容器重启Tomcat服务,先重启1个服务,待健康状态正常后在重启另外1个服务。

  1. 登录天基控制台,在Project框中搜索webappAll,选择目标集群,单击集群运维中心,进入集群运维中心页面。
  2. 选择dtdream-dtcenter服务,选择Cas#服务角色,然后单击Terminal,登录对应的机器。
  3. 登录cas容器,重启Tomcat服务,存在以下2种方法重启Tomcat服务。如果现场版本的Tomcat服务不能使用service命令重启,可以参见方法二进行重启。
    • 方法一:
      1. 执行以下命令,停止服务。
        sudo service tomcat stop
      2. 执行以下命令,启动Tomcat服务。
        sudo service tomcat start
        说明:专有云V3.5及以上版本,只需执行关闭Tomcat服务步骤即可,容器中存在计划任务,会重新启动Tomcat服务,大约5分钟左右启动完成。
    • 方法二:
      1. 执行以下命令,查看Tomcat服务的进程号。
        ps -ef |grep tomcat
      2. 当Tomcat进程存在时,执行以下命令,结束Tomcat服务。
        kill -9 [$Tomcat_PID]
        说明
        • [$Tomcat_PID]为上一步查看的进程号。
        • 专有云V3.5及以上版本,只需执行关闭Tomcat服务步骤即可,容器中存在计划任务,会重新启动Tomcat服务,大约5分钟左右启动完成。
      3. 执行以下命令,启动Tomcat服务。
        /opt/tomcat7/bin/startup.sh
  4. 重启后等待3分钟,然后执行以下命令,运行健康检查脚本,确认返回OK。
    /alidata/bin/check_app.sh

manage域名访问异常

参见cas域名访问异常的实施步骤,选择dtdream-dtcenter服务,选择Manage#服务角色,然后单击Terminal,登录对应的机器,依次登录2个manage容器,重启Tomcat服务。

cas页面登录异常

参见cas域名访问异常的实施步骤,选择dtdream-dtcenter服务,选择Uim#服务角色,然后单击Terminal,登录对应的机器,依次登录2个uim容器,重启Tomcat服务。如果还是异常可以依次重启2个cas容器的Tomcat服务。

3.3. 结果验证

确认专有云控制台登录正常。

4. 回滚方案

本文为应急处理方案,没有变配内容,不需要回滚。