跨可用区容灾

重要

本文中含有需要您注意的重要提示信息,忽略该信息可能对您的业务造成影响,请务必仔细阅读。

当生产站点因为不可抗力因素(比如机房火灾、断电)或者设备故障(软、硬件破坏)导致应用在短时间内无法恢复时,ECS容灾服务支持业务的跨可用区(Availability Zone)的容灾能力,对整体的应用做容灾备份来应对单地区的故障,满足业务的RTO、RPO核心指标。

准备工作

在实现跨可用区容灾之前,您需要选择一个其他可用区创建云上专有网络(VPC),并在目的端创建复制网络交换机和恢复网络交换机,详情请参见搭建云上专有网络

步骤一:创建容灾站点对

准备工作完成后,按如下步骤对源站ECS进行跨可用区容灾保护:

  1. 登录云备份管理控制台

  2. 选择容灾 > ECS容灾

  3. 单击切换到连续复制型容灾

  4. 容灾中心页面右上角,选择+添加

  5. 创建容灾站点对面板,选择类型为跨可用区容灾,并选择准备工作中为生产容灾站创建好的VPC。

    创建

  6. 单击创建

步骤二:添加被保护服务器

连续复制型容灾站点对创建完成后,按如下步骤添加被保护服务器:

  1. 在容灾中心的受保护服务器页签,选中步骤一中已创建的容灾站点对。

  2. 单击+添加,添加要保护的ECS,然后单击确认

    您可以选择至少1ECS进行保护,最多可以支持10ECS。

    服务器状态显示客户端安装中,随后显示已初始化。如果服务器状态未显示已初始化,单击更多 > 服务器操作 > 重启服务器以完成客户端初始化。

步骤三:启动复制

启动容灾复制,将服务器复制到云上,并维持实时复制。按如下步骤启动复制:

  1. 单击受保护服务器页签,在要启动容灾复制服务器右侧对应的操作列表,选择更多 > 故障切换 > 启动复制

  2. 启动复制面板,配置如下参数,然后单击启动

    参数

    说明

    恢复点策略

    从下拉列表中选择创建恢复点的时间间隔,Cloud Backup每天每隔该时间创建一个恢复点,单位为小时。

    硬盘类型

    支持高效云盘、ESSDSSD。

    复制网络

    从下拉列表中选择复制网络。Cloud Backup使用该网络复制容灾数据到云上。

    Cloud Backup默认读取从站VPC网络的可用虚拟交换机。复制网络和恢复网络的交换机可以是同一个,同一个网络做恢复时速度更快。复制网络和恢复网络不在一个可用区时,将导致RTO时间变长。建议配置和恢复网络相同的可用区。

    恢复网络

    从下拉列表中选择恢复网络。容灾恢复时,Cloud Backup使用该网络恢复容灾数据,例如容灾演练或故障切换时恢复出来的ECS使用该网络创建。

    Cloud Backup默认读取从站VPC网络的可用虚拟交换机。复制网络和恢复网络的交换机可以是同一个,同一个网络做恢复时速度更快。复制网络和恢复网络不在一个可用区时,将导致RTO时间变长。建议配置和复制网络相同的可用区。

    复制中断后是否自动重启

    是否复制中断后启动重启。勾选表示复制中断后,启动重启复制任务。

    此时,容灾复制会先后进入启动复制全量复制实时复制中三个阶段。

    1. 启动复制:ECS容灾服务正在扫描系统数据,评估总体数据量,这一阶段通常会持续几分钟。

    2. 全量复制:ECS容灾服务正在把整台服务器的有效数据传输到阿里云,这一阶段所用时间取决于服务器数据量、网络带宽等因素。控制台进度条将会展示复制进度。

    3. 实时复制中:全量复制完成后,阿里云上已经复制了您的全量数据,然后阿里云复制服务AReS(Aliyun Replication Service)将会在服务器上监视所有对磁盘的写操作,并持续地实时复制到阿里云。

(可选)容灾演练

一旦进入实时复制状态,您就可以对服务器进行容灾演练操作了。

容灾演练将被容灾保护的服务器在云上拉起并验证应用正确性,是容灾流程整体中极其重要的一环,其核心意义在于:

  • 方便地验证被容灾保护的应用可以在云上正常启动。

  • 确保操作人员熟悉容灾恢复流程,确保在主站真正发生故障时,操作人员可以顺畅地进行容灾切换。

按如下步骤进行容灾演练:

  1. 受保护服务器页签,单击要启动容灾演练服务器右侧对应的操作列表下的容灾演练

  2. 容灾演练面板,选择恢复网络IP地址、是否使用ECS规格硬盘类型恢复点弹性公网IP切换后执行脚本。然后单击启动

    说明
    • 云备份服务会自动为每个服务器保留最近24小时的24个恢复点。

    • 如果不使用ECS规格,还需要填写CPU、内存信息。

    此时,阿里云会在后台基于用户选定的时间点将服务器启动。后台容灾演练过程中,实时数据复制不受影响。

    几分钟后,您会看到容灾演练完成,单击容灾演练信息下的链接,验证数据与应用。

  3. 清空演练环境。

    验证完成后,单击该服务器右侧对应的操作列表下的清空演练环境,此时恢复出来的ECS会被删除。

    说明

    容灾演练恢复出来的ECS验证完成后,建议尽快清空演练环境,以降低费用支出。

步骤四:故障切换

定期的容灾演练保证了您的业务可以随时在云上启动。而当您的主站发生重大故障,需要在云上马上重启核心业务时,则需要进行故障切换操作。

警告

故障切换操作适用于被保护服务器已经出现严重故障的情形,进行该操作会停掉实时复制流程。您需要重新启动复制,并完成一次全量复制才能对被保护服务器继续进行容灾保护。

按如下步骤进行故障切换:

  1. 受保护服务器页签,在要启动故障切换的服务器右侧对应的操作列表下,选择更多 > 故障切换 > 故障切换

  2. 故障切换面板,选择恢复网络IP地址、是否使用ECS规格硬盘类型恢复点弹性公网IP切换后执行脚本。然后单击启动

    重要

    当前时间恢复点只能使用一次。

  3. 故障切换完成后,单击故障切换/故障恢复信息下的链接,检查数据和应用。

    • 如果检查后发现当前时间点应用运行正常,选择更多 > 故障切换 > 确认故障切换

      说明

      在故障切换或者切换恢复点完成,并且已经确认被容灾保护的服务器恢复出的应用已经接管了业务的情况下,完成故障切换操作是为了清理容灾复制在云上占用的资源,节约资源使用。

    • 如果检查后发现当前时间点应用状态不符合要求,例如数据库一致性问题,或者源端被污染的数据已经被同步到另一个地域,请在确认故障切换前,选择更多 > 故障切换 > 更换恢复点

    说明

    切换恢复点操作与故障切换操作类似,仅需选择更早的恢复点即可。

步骤五:反向复制

被保护服务器的应用完成某个可用区(如可用区A)容灾复制到另一个可用区(如可用区B)后,还可以实施反向复制,即从可用区B反向复制到可用区A。

按如下步骤进行反向复制:

  1. 受保护服务器页签,在要启动反向复制的服务器右侧对应操作列表下,选择更多 > 故障恢复 > 反向注册,确认反向注册被保护服务器。

  2. 操作列表,选择更多 > 故障恢复 > 启动反向复制

  3. 启动反向复制面板,勾选是否进行原机恢复,选择复制网络恢复网络。然后单击启动

    警告

    跨地域及跨可用区容灾支持原机恢复。当使用原机恢复时,所使用的ECS主机中的数据会被清除,请谨慎选择。

  4. 待服务器进入反向实时复制状态时,在操作列表,选择更多 > 故障恢复 > 故障恢复

  5. 故障恢复面板,填写CPU内存信息、选择恢复网络IP地址、编辑恢复后执行脚本

  6. 故障恢复完成后,在操作列表,选择更多 > 故障切换 > 注册,再次注册被保护服务器。