阿里云首页 金融分布式架构 SOFAStack

演练场景

故障演练是业务系统上线前必要的演练环节,旨在对应急预案的可行性,进一步完成应急预案,从而帮助提升产品、集群、机房的稳定性,减少故障的发生,提高故障应急效率,进而提升产品竞争力。

一个完整的故障演练过程为 创建故障原子服务 > 创建故障演练场景 > 创建并发布演练方案 > 创建演练执行单并执行 > 查看演练报告 > 导出演练方案

演练场景模块允许您根据容灾需要,自行设计故障演练场景,并对已创建的演练场景进行管理。

8-创建演练场景.png

创建演练场景

在设置故障演练场景的每一个步骤时,可以根据需要设置是否在演练时自动执行该步骤。

操作步骤如下:

  1. 在左侧导航栏上,单击 故障演练 > 演练场景,进入故障演练场景管理页面。

  2. 单击页面上的 创建演练场景 按钮,进入演练场景创建页面。

  3. 完成基本信息配置后,单击 下一步

    • 场景名称:自定义的场景名称。必填。

    • 标签:选择所属标签。

    • 场景描述:输入关于故障场景的描述。

    • 预期目标:填写故障可能会造成的影响。

    • 问题严重度:选择问题严重度。

      说明

      关于问题严重程度,P0 代表严重程度最高,P4 代表严重程度最低。

    • 关联的风险场景:选择关联的风险场景。如需关联多个风险场景,单击 添加 即可。

  4. (可选)完成前置检查项配置后,单击 下一步。

    1. 设置是否在演练时自动执行该步骤,系统默认自动执行。若不想要自动执行,将 是否自动执行 设为

    2. 添加检查项。支持通过巡检检查和通过测试镜像检查两种方式,可以添加多个检查项。

      • 如果选择 通过巡检检查,需进行以下配置:

        • 巡检规则:执行检查的巡检规则。

        • 执行机房:执行巡检规则的机房。

        • 期望结果:期望巡检通过或失败。

      • 如果选择 通过测试镜像检查,需进行以下配置:

        • 镜像产品:选择测试镜像。镜像产品必须与基本信息中选择的所属产品保持一致。

        • 期望结果:期望巡检通过或失败。

  5. 注入故障。完后以下配置后,单击 下一步

    1. 设置是否在演练时自动执行该步骤,系统默认自动执行。若不想要自动执行,将 是否自动执行 设为

    2. 单击 添加故障注入,完成故障注入配置。

      • 故障节点类型:支持 蚂蚁产品用户应用AKE 宿主机节点 自定义服务器

        • 如果选择 蚂蚁产品,需进行以下配置。

          配置项

          说明

          故障注入产品

          选择注入故障的产品。

          应用

          选择注入故障的应用。

          IP 列表

          指定执行演练的 IP 地址,如果有多个,可以用逗号分隔。

          说明

          指定 IP 后,该演练场景不能在多个环境之间进行同步。

          原子操作

          根据实际业务需求选择原子操作。

          注意

          请确保集群中已安装故障注入组件。该组件可以通过 容器应用服务(AKS)> 集群管理 > 组件管理 进行安装, 或通过 云应用引擎 (Captain) > 应用商店 上传 故障注入组件产品模版 进行安装。

        • 如果选择 用户应用,需进行以下配置。

          配置项

          说明

          故障注入应用

          选择注入故障的应用。支持选择多个应用。

          工作空间组

          选择注入故障应用所在的工作空间组。支持选择多个工作空间组。

          命名空间

          选择注入故障应用所在的命名空间。支持选择多个命名空间。

          应用服务

          选择一个或多个应用服务。

          IP 列表

          指定执行演练的 IP 地址,如果有多个,可以用逗号分隔。

          说明

          指定 IP 后,该演练场景不能在多个环境之间进行同步。

          label

          指定物理机的 label。

          原子操作

          根据实际业务需求选择原子操作。

          注意

          请确保集群中已安装故障注入组件。该组件可以通过 容器应用服务(AKS)> 集群管理 > 组件管理 进行安装, 或通过 云应用引擎 (Captain) > 应用商店 上传 故障注入组件产品模版 进行安装。

        • 如果选择 AKE 宿主机节点 自定义服务器,需进行以下配置。

          配置项

          说明

          IP 列表

          指定执行演练的 IP 地址,如果有多个,可以用逗号分隔。

          说明

          指定 IP 后,该演练场景不能在多个环境之间进行同步。

          原子操作

          根据实际业务需求选择原子操作。

          注意

          请确保集群中已安装故障注入组件。该组件可以通过 容器应用服务(AKS)> 集群管理 > 组件管理 进行安装, 或通过 云应用引擎 (Captain) > 应用商店 上传 故障注入组件产品模版 进行安装。

      • 原子操作设置:根据所选的原子操作设置对应的参数值。

  6. (可选)故障恢复。完成以下配置后,单击 完成

    1. 设置是否在演练时自动执行该步骤,系统默认不自动执行。若想要自动执行,将 是否自动执行 设为

    2. 选择应急预案。

修改演练场景

可通过如下方式对演练场景执行修改操作:

  • 在演练场景列表页,选择目标演练场景,单击 操作 列下的 更多 > 编辑,即可编辑场景,后续操作同创建演练场景。

  • 单击某个演练场景名称,进入演练场景详情页,然后单击页面右上方的 编辑 按钮,开始修改演练场景中的各个步骤。

克隆演练场景

克隆演练场景,指基于已有的演练场景复制出一个新的演练场景。

在演练场景列表页,选择目标演练场景,单击 操作 列下的 更多 >克隆,克隆出一个新场景。然后根据需要,对克隆出来的演练场景配置进行修改。修改操作同编辑演练场景。

废弃演练场景

对于不再使用的演练场景,可以将其废弃。

在演练场景列表页,选择目标演练场景,单击 操作 列下的 更多 > 废弃,使该场景失效。废弃后的演练场景后,仍会显示在演练场景列表中,状态会变为已废弃。

说明

如果确定不再需要废弃后的演练场景,可将其删除。详情请参见 删除演练场景。

删除演练场景

注意

演练场景删除后,不可恢复,请谨慎操作。

可以通过如下方式来删除演练场景:

在演练场景列表页,选择目标演练场景,单击 操作 列下的 更多 > 删除。演练场景删除后,将不再显示在演练场景列表中。

更多操作

在演练场景列表页,您还可以基于目标演练场景快速创建演练方案,具体步骤如下:

  1. 选择目标演练场景,单击 操作 列下的 更多 > 创建演练方案。

  2. 创建演练方案 页,只需填写演练方案名称和描述即可完成创建。详情请参见 创建演练方案。