演练场景

更新时间:2023-07-26 08:04:08

故障演练是业务系统上线前必要的演练环节,旨在对应急预案的可行性,进一步完成应急预案,从而帮助提升产品、集群、机房的稳定性,减少故障的发生,提高故障应急效率,进而提升产品竞争力。

一个完整的故障演练过程为 创建故障原子服务 > 创建故障演练场景 > 创建并发布演练方案 > 创建演练执行单并执行 > 查看演练报告 > 导出演练方案

演练场景模块允许您根据容灾需要,自行设计故障演练场景,并对已创建的演练场景进行管理。此外,演练场景模块在原子能力的基础上还提供开箱即用的经验模板。

创建演练场景

在设置故障演练场景的每一个步骤时,可以根据需要设置是否在演练时自动执行该步骤。

操作步骤如下:

  1. 登录高可用管理控制台。

  2. 在左侧导航栏上,单击 故障演练 > 演练场景

  3. 单击页面上的 创建演练场景 按钮,进入演练场景创建页面。

  4. 完成基本信息配置后,单击 下一步

    • 场景名称:自定义的场景名称。必填。

    • 标签:选择所属标签。

    • 场景描述:输入关于故障场景的描述。

    • 预期目标:填写故障可能会造成的影响。

    • 问题严重度:选择问题严重度。

      说明

      关于问题严重程度,P0 代表严重程度最高,P4 代表严重程度最低。

    • 关联的风险场景:选择关联的风险场景。如需关联多个风险场景,单击 添加 即可。

  5. (可选)完成前置检查项配置后,单击 下一步。

    1. 设置是否在演练时自动执行该步骤,系统默认自动执行。若不想要自动执行,将 是否自动执行 设为

    2. 添加检查项。支持通过巡检检查和通过测试镜像检查两种方式,可以添加多个检查项。

      • 如果选择 通过巡检检查,需进行以下配置:

        • 巡检规则:执行检查的巡检规则。

        • 执行机房:执行巡检规则的机房。

        • 期望结果:期望巡检通过或失败。

      • 如果选择 通过测试镜像检查,需进行以下配置:

        • 镜像产品:选择测试镜像。镜像产品必须与基本信息中选择的所属产品保持一致。

        • 期望结果:期望巡检通过或失败。

  6. 注入故障。完后以下配置后,单击 下一步

    1. 设置是否在演练时自动执行该步骤,系统默认自动执行。若不想要自动执行,将 是否自动执行 设为

    2. 单击 添加故障注入,完成故障注入配置。

      • 故障节点类型:支持 蚂蚁产品用户应用AKE 宿主机节点 自定义服务器

        • 如果选择 蚂蚁产品,需进行以下配置。

          配置项

          说明

          配置项

          说明

          故障注入产品

          选择注入故障的产品。

          应用

          选择注入故障的应用。

          IP 列表

          指定执行演练的 IP 地址,如果有多个,可以用逗号分隔。

          说明

          指定 IP 后,该演练场景不能在多个环境之间进行同步。

          原子操作

          根据实际业务需求选择原子操作。

          重要

          请确保集群中已安装故障注入组件。该组件可以通过 容器应用服务(AKS)> 集群管理 > 组件管理 进行安装。

        • 如果选择 用户应用,需进行以下配置。

          配置项

          说明

          配置项

          说明

          故障注入应用

          选择注入故障的应用。支持选择多个应用。

          工作空间组

          选择注入故障应用所在的工作空间组。支持选择多个工作空间组。

          命名空间

          选择注入故障应用所在的命名空间。支持选择多个命名空间。

          应用服务

          选择一个或多个应用服务。

          IP 列表

          指定执行演练的 IP 地址,如果有多个,可以用逗号分隔。

          说明

          指定 IP 后,该演练场景不能在多个环境之间进行同步。

          label

          指定物理机的 label。

          原子操作

          根据实际业务需求选择原子操作。

          重要

          请确保集群中已安装故障注入组件。该组件可以通过 容器应用服务(AKS)> 集群管理 > 组件管理 进行安装。

        • 如果选择 AKE 宿主机节点 自定义服务器,需进行以下配置。

          配置项

          说明

          配置项

          说明

          IP 列表

          指定执行演练的 IP 地址,如果有多个,可以用逗号分隔。

          说明

          指定 IP 后,该演练场景不能在多个环境之间进行同步。

          原子操作

          根据实际业务需求选择原子操作。

          重要

          请确保集群中已安装故障注入组件。该组件可以通过 容器应用服务(AKS)> 集群管理 > 组件管理 进行安装。

      • 原子操作设置:根据所选的原子操作设置对应的参数值。

  7. (可选)故障恢复。完成以下配置后,单击 完成

    1. 设置是否在演练时自动执行该步骤,系统默认不自动执行。若想要自动执行,将 是否自动执行 设为

    2. 选择应急预案。

更多操作

修改演练场景

可通过如下方式对演练场景执行修改操作:

  • 演练场景 页面,单击目标演练场景 操作 列下的 编辑,即可编辑场景,后续操作同创建演练场景。

  • 单击目标演练场景名称,进入演练场景详情页,然后单击页面右上方的 编辑,开始修改演练场景中的各个步骤。

克隆演练场景

克隆演练场景,指基于已有的演练场景复制出一个新的演练场景。

演练场景 页面,单击目标演练场景 操作 列下的 image..png > 克隆,克隆出一个新场景。然后根据需要,对克隆出来的演练场景配置进行修改。修改操作同编辑演练场景。

废弃演练场景

对于不再使用的演练场景,可以将其废弃。

演练场景 页面,单击目标演练场景 操作 列下的 image..png > 废弃,使该场景失效。废弃后的演练场景后,仍会显示在演练场景列表中,状态会变为已废弃。

说明

如果确定不再需要废弃后的演练场景,可将其删除。详情请参见 删除演练场景。

删除演练场景

重要

演练场景删除后,不可恢复,请谨慎操作。

可以通过如下方式来删除演练场景:

演练场景 页面,单击目标演练场景 操作 列下的 image..png > 删除。演练场景删除后,将不再显示在演练场景列表中。

更多操作

在演练场景列表页,您还可以基于目标演练场景快速创建演练方案,具体步骤如下:

  1. 演练场景 页面,单击目标演练场景 操作 列下的 image..png > 创建演练方案。

  2. 创建演练方案 页面,只需填写演练方案名称和描述即可完成创建。详情请参见 创建演练方案。

  • 本页导读 (0)
  • 创建演练场景
  • 更多操作
  • 修改演练场景
  • 克隆演练场景
  • 废弃演练场景
  • 删除演练场景
  • 更多操作
AI助理

点击开启售前

在线咨询服务

你好,我是AI助理

可以解答问题、推荐解决方案等