通用方案:天基控制台中部署详情页面存在大量未达终态产品集群的应急排查方法

通用方案:天基控制台中部署详情页面存在大量未达终态产品集群的应急排查方法

更新时间:2020-08-10 16:05:22

1. 概述

在专有云V3环境中,天基控制台的部署详情页面存在大量未达终态的产品集群。本文主要介绍定位此问题的应急排查方法

1.1. 适用范围

  • 专有云V3,天基

1.2. 风险说明

本文为应急排查方案,所有操作仅为查询操作,无风险。

1.3. 用户告知

本文为应急排查方案,仅排查产品集群未达终态的原因,不涉及处理该问题的解决方法,具体解决方法请联系阿里云技术支持。

2. 问题描述

在专有云V3环境中,天基控制台的部署详情页面存在大量未达终态的产品集群。

3. 解决方案

3.1. 环境检查

参见以下步骤,进行环境检查。

  1. 登录天基控制台。
  2. 单击任务>部署概况
  3. 在部署概况页面,单击部署详情
  4. 确认在部署详情页面存在大量未达终态的产品集群,系统显示类似如下图。

3.2. 实施步骤

参见以下KB,通过AS_SupT工具生成统计报告。分析该统计报告,查看状态异常的服务角色所在的物理机。如果异常的服务角色集中在1~2台物理机中,则参见异常服务角色集中在1~2台物理机中。如果并非集中在1~2台物理机中,而是分散在不同物理机中,则参见异常服务角色分散在不同物理机中

  • KB 115495:通过AS_SupT工具收集天基控制台中大量产品集群未达终态的信息

异常服务角色集中在1~2台物理机中

如果异常服务角色集中在1~2台物理机中,则参考如下步骤检查物理机状态。由于检查步骤一致,此处以排查一个物理机为例,现场以实际情况为准。

  1. 通过如下步骤,排查物理机是否存在宕机异常。
    1. 登录天基控制台。
    2. 根据统计报告,在天基控制台找到目标物理机所在的集群,进入该集群的集群运维中心页面。
    3. 在集群运维中心页面,查看该机器状态。如果Action为无,并且机器运行状态ERROR或者PROBATION,则分别单击机器运行状态下面的详情按钮和监控统计下面的错误数量,收集异常信息。

      说明:图中以正常状态的机器为例,现场以实际情况为准。
    4. 单击目标机器右侧的Terminal按钮,尝试登录该机器。如果出现下列情况,则立刻联系阿里云技术支持获取帮助。
      • 无法登录该机器,比如无法SSH登录,无法通过天基控制台登录,在带外控制台中也无法登录。
      • 登录后,输入命令或者回车无反应。
      • 登录后,执行top命令或者uptime命令,发现该机器的负载异常。
      • 登录后,执行free -m命令,发现该机器内存使用率异常。
      • 登录后,执行任意命令时,反应较慢甚至无反应。
  2. 登录目标物理机,执行以下命令,确认各挂载点的磁盘使用率。如果存在磁盘空间不足的情况,请联系阿里云技术支持获取帮助。
    df -h
    系统显示类似如下。
  3. 在物理机中,检查Docker服务。如果存在以下情况,则联系阿里云技术支持获取帮助。
    • 执行docker ps命令时无反应或者卡住。
    • 通过docker exec命令进入容器时无反应或者卡住,类似如下图。
  4. 在物理机中,执行rpm -qa命令,检查rpm数据库。如果该命令报错,类似如下图,请联系阿里云技术支持获取帮助。
  5. 在物理机中,执行任意命令时,如果有较大概率出现Cannot allocate memory错误,则可能是内存不足或者当前系统设置的最大进程数较少导致的。参见以下步骤,进一步确认。确认后,联系阿里云技术支持获取帮助。
    1. 执行以下命令,查看返回结果中的max user processes参数值。
      ulimit -a
      系统显示类似如下。
    2. 执行以下命令,查看当前系统运行中的进程数。
      ps -eLf | wc -l
      系统显示类似如下。
    3. 确认步骤a和步骤b所得结果接近或者相等。
  6. 如果不存在上述5种情况,则可能是目标机器中的TianjiClient#服务角色或者DockerDaemon#服务角色异常。参见以下步骤,进一步确认。确认后,请联系阿里云技术支持,优先恢复此服务角色。
    1. 登录天基控制台,进入部署详情页面。
    2. 找到未达终态的产品集群,单击其对应的报警信息
    3. 确认报警信息中的目标服务角色为TianjiClient#或者DockerDaemon#,监控名称为tianji_app_process。类似如下图。

异常服务角色分散在不同物理机中

如果异常服务角色分散在不同物理机中,则参见以下步骤,进行排查。

  1. 根据现场实际情况,在部署详情页面,排查各集群之间的依赖关系,并优先解决依赖问题。
  2. 集群达到终态的要求是依赖列的状态为绿色。如果状态为非绿色,将鼠标移动到其状态上,系统将会显示该集群所依赖的其他集群。系统显示类似如下。联系阿里云技术支持,优先处理被依赖且未达终态的集群。

3.3. 结果验证

通过实施步骤,定位到各产品集群未达终态的原因,及时联系阿里云技术支持获取帮助,解决各产品集群未达终态的问题。参见环境检查,确认部署详情页面不存在未达终态的产品集群。

4. 回滚方案

操作前已是非正常状态,无需回滚。