文档

故障演练

故障演练是整体容灾流程中极其重要的一环。 本文介绍ECS容灾中故障演练的操作流程。

故障演练的意义

故障演练将被容灾保护的服务器在云上拉起并验证应用正确性,是容灾流程整体中及其重要的一环,它的核心意义在于:

  • 方便地验证被容灾保护的应用可以在容灾站点正常拉起。

  • 确保操作人员熟悉容灾恢复流程,确保在生成站点真正发生故障时,操作人员可以顺畅地进行容灾切换。

前提条件

  • 保护组处于增量复制中或者已有恢复点之后,您就可以进行故障演练。如何创建跨可用区和跨地域容灾的保护组,请参见跨可用区容灾启动复制跨地域容灾启动复制

  • 对于创建自定义演练环境场景,您需要提前创建演练环境所需的VPC网络、交换机映射和安全组映射等。

操作流程

  1. 创建故障演练环境。

    说明

    对于创建自定义演练环境场景,您需要提前创建演练环境所需的VPC网络、交换机映射和安全组映射等。并创建演练环境后,进行演练网络配置。

  2. 启动故障演练。

  3. 验证应用或业务。

  4. 清空演练环境。

选择创建演练环境的方式

创建方式

适用场景

优点

缺点

自动创建并启动

适用于业务比较独立,不需公网或者和其他网络通信的配置即可验证业务的场景。

说明

例如提供内部业务的ECS应用,业务不涉及配置负载均衡SLB、域名、安全组(开放端口)等。

  • 配置简单

指定保护组后,系统自动创建演练环境所需资源,包括VPC网络、交换机映射和安全组映射。

不可自定义演练后新创建的ECS实例名称的前缀。自定义的ECS实例名称有利于您快速识别故障演练ECS。

创建自定义演练环境

适合业务和其他网络有交互,需要额外的网络方面配置才可验证的场景。演练环境配置好以后可以一直保留。

说明

例如多台ECS通过负载均衡SLB对外提供服务的场景,您需要为业务配置负载均衡SLB、域名、安全组(开放端口)等。

  • 可以自定义演练后新创建的ECS实例名称的前缀,有利于您快速识别故障演练ECS。

  • 自行规划和创建演练环境资源。包括手动创建演练VPC或者选择容灾站点VPC,创建交换机、安全组映射等。

  • 配置复杂

您需要单独指定演练VPC、配置交换机映射、安全组映射,可能存在实例IP冲突,导致演练失败。

自动创建并启动

  1. 登录混合云容灾管理控制台

  2. 在左侧导航栏,单击云盘异步复制容灾

  3. 单击站点对列表

  4. 容灾站点对页面,单击目标容灾站点对,选择故障演练页签。

    说明

    您也可以进入对应保护组页签,在操作列选择故障演练操作。

  5. 单击自动创建并启动

  6. 启动演练对话框,从下拉框选择保护组,单击下一步image.png

  7. 预览保护组资源,确认完成后,单击确认image.png

    说明
    • 当容灾站点实例规格和实例操作系统不满足要求,您可以根据界面提示,通过修改实例规格修改操作系统修改容灾站点实例规格和操作系统。

    • IP地址异常,是IP地址已被使用,请移除原演练ECS实例或在网络配置中更改交换机映射。

  8. 确认启动演练对话框,单击确认,启动演练。image.png

    说明
    • 系统会暂停当前保护组复制状态,然后基于最近一次可恢复点创建出新的可用盘。通常情况下,暂停会在5分钟内自动恢复。演练磁盘就绪后,系统会在容灾站点创建出演练ECS实例,等演练组创建成功后即可开始验证业务。

    • 保护组演练会自动启动容灾端ECS且不会自动停止生产端ECS。请您谨慎评估业务,并结合安全组、网络隔离等手段隔离生产流量,避免业务风险。

    演练保护组状态会先后进入演练中演练组创建成功状态。

    image.png
  9. 演练ECS实例启动成功后,您就可以验证业务。

    image.png
  10. 清理演练环境。

    1. 删除故障演练组

      删除故障演练组会删除演练过程中创建的ECS、云盘、弹性网卡、快照、镜像等资源。

      在目标演练保护组的操作列,单击删除故障演练组,完成确认,即可删除。

      说明

      您也可以进入对应保护组页签,在操作列删除指定故障演练组,可以批量删除故障演练组。

    2. 删除演练环境

      演练环境区域,单击删除,完成确认,即可删除。

创建自定义演练环境

  1. 登录混合云容灾管理控制台

  2. 在左侧导航栏,单击云盘异步复制容灾

  3. 单击站点对列表

  4. 容灾站点对页面,单击目标容灾站点对,选择故障演练

    说明

    您也可以进入对应保护组页签,在操作列选择故障演练操作。

  5. 单击创建自定义演练环境

  6. 创建演练环境对话框,设置故障演练后新创建ECS实例名称的前缀,从下拉框中选择演练VPC,然后单击确认image.png

    说明
    • ECS实例前缀为新创建ECS实例名称的前缀。例如您容灾演练的ECS实例名称为ecse,ECS实例前缀取值为Drill_test_20230925_,则新生成的ECS实例名称为Drill_test_20230925_ecs

    • 您需要提前在容灾站点创建演练环境所使用的VPC。

  7. 配置演练环境网络。image.png

    1. 演练环境区域,单击演练网络配置参数后的详情

    2. 演练网络配置对话框,添加交换机映射和添加安全组映射。image.png

  8. 演练环境区域,单击启动演练,开始故障演练。image.png

  9. 启动演练对话框,从下拉框选择保护组,单击下一步image.png

  10. 预览保护组资源,确认完成后,单击确认image.png

    说明
    • 当容灾站点实例规格和实例操作系统不满足要求,您可以根据界面提示,通过修改实例规格修改操作系统修改容灾站点实例规格和操作系统。

    • IP地址异常,表示该ECS实例的IP地址已被使用,请移除原演练ECS实例或更改演练VPC。

  11. 确认启动演练对话框,单击确认,启动演练。image.png

    说明
    • 系统会暂停当前保护组复制状态,然后基于最近一次可恢复点创建出新的可用盘。通常情况下,暂停会在5分钟内自动恢复。演练磁盘就绪后,系统会在容灾站点创建出演练ECS实例,等演练组创建成功后即可开始验证业务。

    • 保护组演练会自动启动容灾端ECS且不会自动停止生产端ECS。请您谨慎评估业务,并结合安全组、网络隔离等手段隔离生产流量,避免业务风险。

    演练保护组状态会先后进入初始化演练中演练组创建成功状态。

    image.png
  12. 演练ECS实例启动成功后,您就可以验证业务。image.png

  13. 清理演练环境。

    1. 删除故障演练组

      删除故障演练组会删除演练过程中创建的ECS、云盘、弹性网卡、快照、镜像等资源。

      在目标演练保护组的操作列,单击删除故障演练组,完成确认,即可删除。

      说明

      您也可以进入对应保护组页签,在操作列删除指定故障演练组,可以批量删除故障演练组。

    2. 删除演练环境

      演练环境区域,单击删除,完成确认,即可删除。

  • 本页导读 (1)
文档反馈