• 首页 > 
  • 应急预案:专有云V3环境中天基服务功能不可用的应急处理方法

应急预案:专有云V3环境中天基服务功能不可用的应急处理方法

KB: 167952

 · 

更新时间:2020-06-11 17:33

1. 概述

本文主要介绍在专有云V3环境中,天基服务功能不可用的应急处理方法。

1.1. 适用范围

  • 专有云V3企业版,天基

1.2. 用户告知

  • 适用平台:x86、ARM
  • 授权级别:L3(产品研发工程师)
  • 临时或固化方案:临时
  • 操作复杂度:低
  • 业务影响:否
    说明:该方案命令均为查询命令。
  • 风险等级:低

2. 问题描述

在专有云环境中,天基服务依赖飞天组件女娲和盘古,由于女娲和盘古异常时导致天基功能异常。

3. 解决方案

3.1. 环境检查

检查天基控制台是否可以正常使用,如果不能正常使用,请参见以下KB文档进行处理。

  • KB 164950 应急预案:天基控制台无法打开或者显示异常的应急处理方法

3.2. 实施步骤

  1. 登录OPS1服务器,执行以下命令,批量检查OPS1~3服务器的磁盘使用情况,查看磁盘使用率大于91%的挂载点。
    tj_show -r tianji.APIServer# |xargs -i -n1 sh -c 'echo {}; ssh {} df -Th | awk "{if(\$6>91)print \$7,\$6}";echo'
    系统显示类似如下。
  2. 登录OPS1服务器,执行以下命令,测试盘古读写情况。
    cd /cloud/app/tianji/ConfigStore#/config_store/current/; ./pangulogtest
    系统显示类似如下,显示read/write success,即为正常情况。若不能读写,请联系阿里云技术支持处理。
  3. 执行以下命令,检查女娲节点是否为GOOD。如果有两个女娲节点不可用,可以将nuwa配置单节点运行,具体操作步骤请联系阿里云技术支持进行处理。
    curl "localhost:7070/api/v3/column/m.id,m.state?m.sr.id=nuwa.NuwaZK%23&m.cluster=[$Cluster_Name]"
    说明:[$Cluster_Name]为tianji集群名称。
    系统显示类似如下。

3.3. 结果验证

在天基控制台,确认天基服务恢复正常。

4. 回滚方案

无需回滚,操作前的情况已是非正常状态。