故障演练

故障演练是整体容灾流程中极其重要的一环。 本文介绍ECS容灾中故障演练的操作流程。

故障演练的意义

故障演练将被容灾保护的服务器在云上拉起并验证应用正确性,是容灾流程整体中及其重要的一环,它的核心意义在于:

  • 方便地验证被容灾保护的应用可以在容灾站点正常拉起。

  • 确保操作人员熟悉容灾恢复流程,确保在生成站点真正发生故障时,操作人员可以顺畅地进行容灾切换。

前提条件

  • 保护组处于增量复制中或者已有恢复点之后,您就可以进行故障演练。如何创建跨可用区和跨地域容灾的保护组,请参见跨可用区容灾启动复制跨地域容灾启动复制

  • 对于创建自定义演练环境场景,您需要提前创建演练环境所需的VPC网络、交换机映射和安全组映射等。

操作流程

  1. 创建故障演练环境。

    说明

    对于创建自定义演练环境场景,您需要提前创建演练环境所需的VPC网络、交换机映射和安全组映射等。并创建演练环境后,进行演练网络配置。

  2. 启动故障演练。

  3. 验证应用或业务。

  4. 清空演练环境。

选择创建演练环境的方式

创建方式

适用场景

优点

缺点

自动创建并启动

适用于业务比较独立,不需公网或者和其他网络通信的配置即可验证业务的场景。

说明

例如提供内部业务的ECS应用,业务不涉及配置负载均衡SLB、域名、安全组(开放端口)等。

  • 配置简单

指定保护组后,系统自动创建演练环境所需资源,包括VPC网络、交换机映射和安全组映射。

不可自定义演练后新创建的ECS实例名称的前缀。自定义的ECS实例名称有利于您快速识别故障演练ECS。

创建自定义演练环境

适合业务和其他网络有交互,需要额外的网络方面配置才可验证的场景。演练环境配置好以后可以一直保留。

说明

例如多台ECS通过负载均衡SLB对外提供服务的场景,您需要为业务配置负载均衡SLB、域名、安全组(开放端口)等。

  • 可以自定义演练后新创建的ECS实例名称的前缀,有利于您快速识别故障演练ECS。

  • 自行规划和创建演练环境资源。包括手动创建演练VPC或者选择容灾站点VPC,创建交换机、安全组映射等。

  • 配置复杂

您需要单独指定演练VPC、配置交换机映射、安全组映射,可能存在实例IP冲突,导致演练失败。

自动创建并启动故障演练

  1. 登录云备份Cloud Backup控制台

  2. 在左侧导航栏,选择容灾 > ECS容灾

  3. 如果不是云盘异步复制型容灾,请单击切换到云盘异步复制型容灾image

  4. 容灾站点对页面,单击目标容灾站点对,选择故障演练页签。

    说明

    您也可以进入对应保护组页签,在操作列选择故障演练操作。

  5. 单击自动创建并启动

  6. 启动演练对话框,从下拉框选择保护组,单击下一步image.png

  7. 预览保护组资源,确认完成后,单击确认image.png

    说明
    • 当容灾站点实例规格和实例操作系统不满足要求时,您可以根据生产站点ECS实例规格、操作系统和界面提示,选择合适的实例规格。您可以通过修改实例规格修改操作系统修改容灾站点实例规格和操作系统。若规格族和操作系统无法满足您的需求,请提工单联系阿里云技术支持。

    • 启动容灾复制前,您也可以修改自定义数据修改容灾端IP

    • IP地址异常,是IP地址已被使用,请移除原演练ECS实例或在网络配置中更改交换机映射。

  8. 确认启动演练对话框,单击确认,启动演练。image.png

    重要
    • 系统会暂停当前保护组复制状态,然后基于最近一次可恢复点创建出新的可用盘。通常情况下,暂停会在5分钟内自动恢复。演练磁盘就绪后,系统会在容灾站点创建出演练ECS实例,等演练组创建成功后即可开始验证业务。

    • 保护组演练会自动启动容灾端ECS且不会自动停止生产端ECS。请用户谨慎评估业务,并结合安全组、网络隔离等手段隔离生产流量,以避免业务风险。

    演练保护组状态会先后进入初始化演练中演练组创建成功状态。

    image.png

  9. 演练ECS实例启动成功后,您就可以验证业务。

    image.png

  10. 清理演练环境。

    1. 删除故障演练组

      删除故障演练组会删除演练过程中创建的ECS、云盘、弹性网卡、快照、镜像等资源。

      在目标演练保护组的操作列,单击删除故障演练组,完成确认,即可删除。

      说明

      您也可以进入对应保护组页签,在操作列删除指定故障演练组,可以批量删除故障演练组。

    2. 删除演练环境

      演练环境区域,单击删除,完成确认,即可删除。

创建自定义演练环境

  1. 登录云备份Cloud Backup控制台

  2. 在左侧导航栏,选择容灾 > ECS容灾

  3. 如果不是云盘异步复制型容灾,请单击切换到云盘异步复制型容灾image

  4. 容灾站点对页面,单击目标容灾站点对,选择故障演练

    说明

    您也可以进入对应保护组页签,在操作列选择故障演练操作。

  5. 单击创建自定义演练环境

  6. 创建演练环境对话框,设置故障演练后新创建ECS实例名称的前缀,从下拉框中选择演练VPC,然后单击确认image.png

    说明
    • ECS实例前缀为新创建ECS实例名称的前缀。例如您容灾演练的ECS实例名称为ecse,ECS实例前缀取值为Drill_test_20230925_,则新生成的ECS实例名称为Drill_test_20230925_ecs

    • 您需要提前在容灾站点创建演练环境所使用的VPC。

  7. 配置演练环境网络。image.png

    1. 演练环境区域,单击演练网络配置参数后的详情

    2. 演练网络配置对话框,添加交换机映射和添加安全组映射。image.png

  8. 演练环境区域,单击启动演练,开始故障演练。image.png

  9. 启动演练对话框,从下拉框选择保护组,单击下一步image.png

  10. 预览保护组资源,确认完成后,单击确认image.png

    说明
    • 当容灾站点实例规格和实例操作系统不满足要求时,您可以根据生产站点ECS实例规格、操作系统和界面提示,选择合适的实例规格。您可以通过修改实例规格修改操作系统修改容灾站点实例规格和操作系统。若规格族和操作系统无法满足您的需求,请提工单联系阿里云技术支持。

    • 启动容灾复制前,您也可以修改自定义数据修改容灾端IP

    • IP地址异常,是IP地址已被使用,请移除原演练ECS实例或在网络配置中更改交换机映射。

  11. 确认启动演练对话框,单击确认,启动演练。image.png

    重要
    • 系统会暂停当前保护组复制状态,然后基于最近一次可恢复点创建出新的可用盘。通常情况下,暂停会在5分钟内自动恢复。演练磁盘就绪后,系统会在容灾站点创建出演练ECS实例,等演练组创建成功后即可开始验证业务。

    • 保护组演练会自动启动容灾端ECS且不会自动停止生产端ECS。请用户谨慎评估业务,并结合安全组、网络隔离等手段隔离生产流量,避免业务风险。

    演练保护组状态会先后进入初始化演练中演练组创建成功状态。

    image.png

  12. 演练ECS实例启动成功后,您就可以验证业务。image.png

  13. 清理演练环境。

    1. 删除故障演练组

      删除故障演练组会删除演练过程中创建的ECS、云盘、弹性网卡、快照、镜像等资源。

      在目标演练保护组的操作列,单击删除故障演练组,完成确认,即可删除。

      说明

      您也可以进入对应保护组页签,在操作列删除指定故障演练组,可以批量删除故障演练组。

    2. 删除演练环境

      演练环境区域,单击删除,完成确认,即可删除。