应急预案:AccountSessionAliyunCom服务角色发生postcheck_monitor告警的解决方法

应急预案:AccountSessionAliyunCom服务角色发生postcheck_monitor告警的解决方法

更新时间:2020-06-22 15:45:28

1. 概述

在天基控制台中,baseService-aas服务中的AccountSessionAliyunCom#服务角色发生postcheck_monitor告警的解决方法

1.1. 适用范围

  • 专有云V3企业版,基础服务设备
    说明:适用于专有云V3.0.0~V3.10环境。

1.2. 用户告知

  • 适用平台:x86
  • 授权级别:L1(一线驻场工程师)
  • 临时或固化方案:固化
  • 操作复杂度:低
  • 预估执行时长:10分钟
  • 业务影响:否
  • 风险等级:低、中、高
    说明:风险等级低,注意灰度操作。

2. 问题描述

在天基控制台中,baseService-aas服务中的AccountSessionAliyunCom#服务角色发生postcheck_monitor告警

3. 解决方案

3.1. 环境检查

  1. 登录天基控制台,Project中搜索baseServiceAll ,单击StandardCloudCluster-XXXXX集群右侧的集群运维中心
  2. 服务框中选择baseService-aas,在服务角色框中选择AccountSessionAliyunCom#,单击机器右侧的Terminal登录对应的机器。
  3. 登录account-session-aliyun-com容器,执行以下命令,进行健康检查。
    sh /alidata/bin/check_health.sh
    
    系统显示类似如下,确认健康状态检测失败。
  4. 执行以下命令,检查Tomcat服务的运行状态。
    sudo /etc/init.d/tomcat7 status && sudo /etc/init.d/tengine status
    
    系统显示类似如下,说明应用服务出现异常。

3.2. 实施步骤

在account-session-aliyun-com容器中,执行以下命令,重启应用服务。
/alidata/bin/start
系统显示类似如下,说明重启成功。

3.3. 结果验证

登录天基控制台,确认AccountSessionAliyunCom#服务角色已达终态。

4. 回滚方案

重启进程不需要回滚。