故障演练是整体容灾流程中极其重要的一环。 本文介绍ECS容灾中故障演练的操作流程。
故障演练的意义
故障演练将被容灾保护的服务器在云上拉起并验证应用正确性,是容灾流程整体中及其重要的一环,它的核心意义在于:
-
方便地验证被容灾保护的应用可以在容灾站点正常拉起。
-
确保操作人员熟悉容灾恢复流程,确保在生成站点真正发生故障时,操作人员可以顺畅地进行容灾切换。
前提条件
-
保护组处于增量复制中或者已有恢复点之后,您就可以进行故障演练。如何创建跨可用区和跨地域容灾的保护组,请参见跨可用区容灾启动复制和跨地域容灾启动复制。
-
对于创建自定义演练环境场景,您需要提前创建演练环境所需的VPC网络、交换机映射和安全组映射等。
操作流程
-
创建故障演练环境。
说明对于创建自定义演练环境场景,您需要提前创建演练环境所需的VPC网络、交换机映射和安全组映射等。并创建演练环境后,进行演练网络配置。
-
启动故障演练。
-
验证应用或业务。
-
清空演练环境。
选择创建演练环境的方式
|
创建方式 |
适用场景 |
优点 |
缺点 |
|
自动创建并启动 |
适用于业务比较独立,不需公网或者和其他网络通信的配置即可验证业务的场景。 说明
例如提供内部业务的ECS应用,业务不涉及配置负载均衡SLB、域名、安全组(开放端口)等。 |
指定保护组后,系统自动创建演练环境所需资源,包括VPC网络、交换机映射和安全组映射。 |
不可自定义演练后新创建的ECS实例名称的前缀。自定义的ECS实例名称有利于您快速识别故障演练ECS。 |
|
创建自定义演练环境 |
适合业务和其他网络有交互,需要额外的网络方面配置才可验证的场景。演练环境配置好以后可以一直保留。 说明
例如多台ECS通过负载均衡SLB对外提供服务的场景,您需要为业务配置负载均衡SLB、域名、安全组(开放端口)等。 |
|
您需要单独指定演练VPC、配置交换机映射、安全组映射,可能存在实例IP冲突,导致演练失败。 |
自动创建并启动
-
登录混合云容灾管理控制台。
-
如果当前页面显示为连续复制型容灾,请在左侧导航栏上方单击
图标,切换到云盘异步复制型容灾。 -
单击站点对列表。
-
在容灾站点对页面,单击目标容灾站点对,选择故障演练页签。
说明您也可以进入对应保护组页签,在操作列选择故障演练操作。
-
单击自动创建并启动。
-
在启动演练对话框,从下拉框选择保护组,单击下一步。
-
预览保护组资源,确认完成后,单击确认。在 资源预览 页面,可选择 资源组(容灾系统自动创建的ECS将加入此资源组,可不指定),并设置 ECS标签同步 开关(默认开启,将标签同步到容灾系统自动创建的ECS上)。页面以表格展示保护组中的ECS实例信息,包括实例规格、操作系统、IP地址和辅助网卡等。注意演练资源创建过程中会暂停保护组复制,可能导致RPO超出阈值。确认配置无误后,单击 确认 启动演练。
说明-
当容灾站点实例规格和实例操作系统不满足要求时,您可以根据生产站点ECS实例规格、操作系统和界面提示,选择合适的实例规格。您可以通过修改实例规格和修改操作系统修改容灾站点实例规格和操作系统。若规格族和操作系统无法满足您的需求,请提工单联系阿里云技术支持。
-
启动容灾复制前,您也可以修改自定义数据和修改容灾端IP。
-
IP地址异常,是IP地址已被使用,请移除原演练ECS实例或在网络配置中更改交换机映射。
-
-
在确认启动演练对话框,勾选 我已评估业务,可以启动演练,单击确认,启动演练。
重要-
系统会暂停当前保护组复制状态,然后基于最近一次可恢复点创建出新的可用盘。通常情况下,暂停会在5分钟内自动恢复。演练磁盘就绪后,系统会在容灾站点创建出演练ECS实例,等演练组创建成功后即可开始验证业务。
-
保护组演练会自动启动容灾端ECS且不会自动停止生产端ECS。请您谨慎评估业务,并结合安全组、网络隔离等手段隔离生产流量,避免业务风险。
演练保护组状态会先后进入初始化、演练中、演练组创建成功状态。
-
-
演练ECS实例启动成功后,您就可以验证业务。
在故障演练页面的演练保护组区域,可查看演练状态(如演练组创建成功)、恢复点、演练开始时间及演练RTO等信息。展开保护组行查看保护实例详情,单击容灾站点实例旁的远程连接按钮连接演练实例以验证业务。
-
清理演练环境。
-
删除故障演练组
删除故障演练组会删除演练过程中创建的ECS、云盘、弹性网卡、快照、镜像等资源。
在目标演练保护组的操作列,单击删除故障演练组,完成确认,即可删除。
说明您也可以进入对应保护组页签,在操作列删除指定故障演练组,可以批量删除故障演练组。
-
删除演练环境
在演练环境区域,单击删除,完成确认,即可删除。
-
创建自定义演练环境
-
登录混合云容灾管理控制台。
-
如果当前页面显示为连续复制型容灾,请在左侧导航栏上方单击
图标,切换到云盘异步复制型容灾。 -
单击站点对列表。
-
在容灾站点对页面,单击目标容灾站点对,选择故障演练。
说明您也可以进入对应保护组页签,在操作列选择故障演练操作。
-
单击创建自定义演练环境。
-
在创建演练环境对话框,设置故障演练后新创建ECS实例名称的前缀,从下拉框中选择演练VPC,然后单击确认。
说明-
ECS实例前缀为新创建ECS实例名称的前缀。例如您容灾演练的ECS实例名称为
ecse,ECS实例前缀取值为Drill_test_20230925_,则新生成的ECS实例名称为Drill_test_20230925_ecs。 -
您需要提前在容灾站点创建演练环境所使用的VPC。
-
-
配置演练环境网络。
-
在演练环境区域,单击演练网络配置参数后的详情。
-
在演练网络配置对话框,添加交换机映射和添加安全组映射。系统弹出 演练网络配置 弹窗,包含 交换机映射 和 安全组映射 两部分。交换机映射区域展示可用区映射关系(如华东1(杭州)可用区G → 华东2(上海)可用区G)及生产站点网络与容灾站点网络的映射状态;安全组映射区域展示生产站点安全组与容灾站点安全组的映射状态。可通过 添加交换机映射 和 添加安全组映射 新增映射,或对已有映射执行 编辑 和 删除 操作。
-
-
在演练环境区域,单击启动演练,开始故障演练。
-
在启动演练对话框,从下拉框选择保护组,单击下一步。
-
预览保护组资源,确认完成后,单击确认。
说明-
当容灾站点实例规格和实例操作系统不满足要求时,您可以根据生产站点ECS实例规格、操作系统和界面提示,选择合适的实例规格。您可以通过修改实例规格和修改操作系统修改容灾站点实例规格和操作系统。若规格族和操作系统无法满足您的需求,请提工单联系阿里云技术支持。
-
启动容灾复制前,您也可以修改自定义数据和修改容灾端IP。
-
IP地址异常,是IP地址已被使用,请移除原演练ECS实例或在网络配置中更改交换机映射。
-
-
在确认启动演练对话框,单击确认,启动演练。
重要-
系统会暂停当前保护组复制状态,然后基于最近一次可恢复点创建出新的可用盘。通常情况下,暂停会在5分钟内自动恢复。演练磁盘就绪后,系统会在容灾站点创建出演练ECS实例,等演练组创建成功后即可开始验证业务。
-
保护组演练会自动启动容灾端ECS且不会自动停止生产端ECS。请您谨慎评估业务,并结合安全组、网络隔离等手段隔离生产流量,避免业务风险。
演练保护组状态会先后进入初始化、演练中、演练组创建成功状态。
-
-
演练ECS实例启动成功后,您就可以验证业务。
-
清理演练环境。
-
删除故障演练组
删除故障演练组会删除演练过程中创建的ECS、云盘、弹性网卡、快照、镜像等资源。
在目标演练保护组的操作列,单击删除故障演练组,完成确认,即可删除。
说明您也可以进入对应保护组页签,在操作列删除指定故障演练组,可以批量删除故障演练组。
-
删除演练环境
在演练环境区域,单击删除,完成确认,即可删除。
-