为验证系统的容错性和可恢复性等性能,您可以将合适的故障注入到系统中,观察系统的表现,从而识别系统中可能存在的问题并及时修复。本文以 CPU 满载演练为例,介绍如何使用故障演练功能。

步骤一:安装探针

  1. 进入 AHAS 产品主页,开通 AHAS 服务。具体步骤参见开通 AHAS
  2. 登录 AHAS 控制台,在探针管理页面右上角单击安装故障演练探针。具体步骤参见架构感知接入概述
    说明 架构感知探针已经包含了故障演练的功能,如果已经安装架构感知探针,则无需重复安装故障演练探针。

步骤二:创建演练

  1. 在 AHAS 控制台左侧导航栏中选择故障演练 > 演练列表
  2. 故障演练页面左上角单击新建演练
  3. 演练基本信息页面,填写演练名称演练描述演练标签,然后单击确定演练基本信息
  4. 单击页面下方的配置页签,然后单击自定义创建
  5. 演练配置页面配置页签的演练对象区域完成以下配置。 演练配置
    1. 演练对象页面设置分组名称、演练机器类型和机器列表。
      说明 机器列表中可以选择一台或多台机器。
    2. 单击 + 添加演练内容,然后选择系统资源 > CPU 资源 > 脚本方式制造 CPU 满载,然后单击确定
    3. 单击保存,然后单击下一步
  6. 全局配置页面完成以下配置。
    1. 选择演练流程顺序执行
    2. 全局监控节点区域单击+ 新增节点,在新增节点对话框中选择 CPU 指标,然后单击确定
    3. 全局监控配置面板中选择指标system.cpu.util(综合利用率)
    4. 恢复策略区域单击 + 新增策略,在新增节点对话框中选择 CPU 指标,然后单击确定
    5. 策略配置面板中,配置恢复规则和恢复策略。

      本示例中,当满足 70% 的机器满足 system.cpu.util(综合利用率)等于 100% 且持续 30s 时,即可解除 CPU 满载,恢复初始 CPU 使用率。具体配置如下图所示。

      ex_策略配置
    6. 设置自动恢复时间为 30 分钟。
  7. 单击下一步

步骤三:执行演练

  1. 在左侧导航栏中选择故障演练 > 演练列表
  2. 演练列表中单击目标演练任务右侧操作栏的演练,然后在开始执行演练对话框中单击确定

    可以看出故障开始注入之后,目标机器的 CPU 指标开始增加,说明故障已经生效。

    执行演练

步骤四:停止演练

您可以通过以下两种方式停止演练。

  • 自动停止:当演练时间超过自动恢复时间,即可自动停止。可在演练页面保护策略区域查看自动恢复时间,本示例为 30 分钟。自动恢复时间
  • 手动停止:

    在演练执行情况区域单击日志。若日志中显示“当前步骤运行结束,需要等待用户确认”信息,则单击脚本方式制造 CPU 满载右侧的继续图标恢复演练。若需直接停止演练,则单击停止图标。

查看演练信息

演练结束后,您可以在演练详情页查看演练时长、演练过程中的 CPU 指标曲线、演练参数和演练日志等信息。

后续步骤
  • 滑动鼠标至CPU 指标时序曲线,即可查看某时间点的演练机器的具体 CPU 指标。
  • 单击机器信息区域的参数,即可查看脚本方式制造 CPU 满载节点执行参数信息。
  • 单击机器信息区域的日志,即可查看演练过程的日志信息。
  • 单击页面右上角的查看详情,可查看该演练任务的配置和演练日志信息。