• 应急预案:专有云V3环境中禁止天基自动启动的方法

应急预案:专有云V3环境中禁止天基自动启动的方法

更新时间:2020-11-11 04:33

1. 概述

本文主要介绍在专有云V3环境中,禁止天基自动启动的方法。

1.1. 适用范围

  • 专有云V3,天基
    说明:适用于专有云V3.13以前的V3版本。

1.2. 用户告知

  • 适用平台:x86、ARM
  • 授权级别:L2(二线技术支持工程师)
  • 临时或固化方案:临时
  • 操作复杂度:低
  • 预估执行时长:20分钟
  • 业务影响:否
    说明:在执行本方案后,天基不会自动启动,且操作机器上所有服务都不会启动。
  • 风险等级:低
    说明:操作无风险。

2. 问题描述

通过本方案禁止天基自动启动,避免天基拉起其他服务,如盘古服务,方案使用场景如下:

  • 某项目在系统重启后,AliFlash盘挂载超时,所对应的SSDCache2目录未挂载导致进入紧急模式,无法启动系统。因为盘古强依赖SSDCache目录,如果此目录为空,将有丢数据风险,所以必须将天基服务停止,保证天基不会自动拉起盘古服务,再进行磁盘修复,待修复SSDCache所对应的磁盘问题之后再启动天基,天基将启动盘古服务。
  • 其他原因,不希望天基自动拉起业务应用的情况下,也可以采用此方法。

3. 解决方案

3.1. 环境检查

在机器开机过程中,因为磁盘自检超时导致无法正常进入系统,提示输入密码进入紧急模式,报错信息如下:

[ TIME ] Timed out waiting for device dev-disk-by\x2dlabel-SSDCache2.device.
[DEPEND] Dependency failed for /apasarapangu/SSDCache2.
[DEPEND] Dependency failed for Local File Systems.
[DEPEND] Dependency failed for Mark the need to relabel after reboot.
[DEPEND] Dependency failed for Relabel all filesystems, if necessary.
[ OK ] Reached target Timers.

3.2. 实施步骤

  1. 在机器启动界面,输入root用户的密码,进入修复模式。
  2. 在修复模式下,执行以下命令,将天基的计划任务注释。
    crontab  -e
    修改前系统显示类似如下。

    修改后系统显示类似如下。
  3. 执行以下命令,取消天基服务开机自启动。
    systemctl disable tianji.timer
    系统显示类似如下。
  4. 重启系统,再次进入系统,天基不会自启动。此时,可以执行磁盘修复或业务修复等操作:
    说明:此方案为应急预案,仅是禁止天基自启动,而磁盘修复和业务修复不在此方案范围内。
    • 如果AliFlash盘挂载超时导致挂载失败,可参见专有云环境中AliFlash盘挂载超时的解决方法进行处理。
    • 如果物理磁盘损坏,需要更换磁盘,请联系阿里云技术支持执行更换磁盘的操作。
    • 如果需要进行其他业务修复,由相关阿里云技术支持进行修复。

3.3. 结果验证

在系统启动后,天基不会自启动,所有业务不会自启动。

4. 回滚方案

  1. 登录机器,将实施步骤中计划任务注释的tianji.timer所在行取消注释。
  2. 执行以下命令,设置天基开机自启动。
    systemctl enable tianji.timer
  3. 重启系统。