在执行故障演练过程中,您可以实时查看演练进度、每个演练活动的运行状态及结果,同时也能够随时结束演练,进行恢复阶段的活动,清除故障演练影响。

背景信息

一次完整的故障演练包括以下四个阶段:

安装探针 > 创建演练 > 执行演练 > 停止演练

操作步骤

演练任务创建完成后,您可以直接执行演练。

  1. 在左侧导航栏中选择故障演练 > 演练列表
  2. 演练列表中单击目标演练任务右侧操作栏的演练,然后在开始执行演练对话框中单击确定

    可以看出故障开始注入之后,目标机器的 CPU 指标开始增加,说明故障已经生效。

    执行演练

    您可以随时关注演练进度、演练时长、活动运行的结果等。演练执行界面分为以下几个区域:

    • 基本信息区域:包括了演练进度以及开始时间等信息。
    • 指标展示区域:如果在演练参数设置里面配置了全局监控节点,则可以看到实时的系统指标数据。
      • 指标数据将定时更新,您可以单击右上角的刷新图标手动请求数据。
      • 如果演练尚未结束,时间范围为演练开始到当前时间,如果演练已经结束,时间范围为演练开始到演练结束时间。指标采集存在约 1 分钟延迟。
      • K8s 类场景时候用户配置的机器地址为 Master 地址,非故障实际生效的节点 IP,此处展示的 IP 地址是实际生效的节点 IP 地址。例如用户配置了192.168.1.1,此为故障下发地址,实际影响的是 K8s 集群上192.168.1.2,192.168.1.3 两个节点地址,那么监控数据会展示192.168.1.2,192.168.1.3。
    • 保护策略区域:若配置了保护策略,则可以看到正在运行的保护策略列表。
      • 演练执行后,保护策略开始执行。
      • 若您手动终止演练,那么保护策略也会终止。
    • 流程执行区域:流程执行区域展示了当前演练的节点运行情况以及当前节点每台机器的执行情况。
    • 节点操作说明:根据节点的通用配置,在节点上会有以下操作。
      • 继续:说明当前节点已经运行完毕,需要用户手动单击才能进入到下一个节点。
      • 停止:说明当前节点已经运行完毕,如果您无需再运行下一个节点,则单击终止整个演练任务。
      • 刷新:说明当前节点运行失败,单击重试。
    • 节点详情:单击任何一个节点,会在右侧展示节点的详情,包含以下信息。
      • 机器信息:可以看到每一台机器的运行情况,如果当前机器执行错误,可以单击机器 IP 来查看具体的错误信息。
      • 参数:可以看到演练节点的配置参数。
      • 日志:可以看到演练运行过程中当前节点的执行日志。

后续步骤

停止演练

常见问题

参见故障演练常见问题