容灾系统部署在阿里云的两个地域中,当主系统发生故障时,业务系统切换到容灾系统。主系统和容灾系统部署在不同的地域,提供容灾即服务,且RPO可以低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性灾害导致的系统故障。

准备工作

在实现跨地域容灾之前,您需要选择一个不同于生产环境的地域作为容灾目标地域。在该地域上创建云上专有网络(VPC),并创建复制网络交换机和恢复网络交换机,详情请参见搭建云上专有网络

步骤一:创建容灾站点对

准备工作完成后,按如下步骤对源站ECS进行跨地域容灾保护:

  1. 登录混合云备份管理控制台
  2. 单击容灾 > ECS容灾
  3. 站点对信息页面,选择+添加
  4. 创建连续复制型容灾站点对对话框,选择区域容灾到区域类型,并选择准备工作中为主从站创建好的VPC。
    sitepair
  5. 单击创建

步骤二:添加被保护服务器

连续复制型容灾站点对创建完成后,按如下步骤添加被保护服务器:

  1. 在容灾中心的受保护服务器页签,选中步骤一中已创建的容灾站点对。
  2. 单击+添加,添加要保护的ECS,然后单击确认

    您可以选择至少1个ECS进行保护,最多可以支持10个ECS。

    服务器状态显示客户端安装中,随后显示已初始化。如果服务器状态未显示已初始化,单击更多 > 服务器操作 > 重启服务器以完成客户端初始化。

步骤三:启动复制

启动容灾复制,将服务器复制到云上,并维持实时复制。按如下步骤启动复制:

  1. 受保护服务器页签,在要启动容灾复制服务器右侧对应的操作列表下,单击更多 > 故障切换 > 启动复制
  2. 启动复制页面,分别选择恢复点策略、是否使用SSD复制网络恢复网络,以及复制中断后是否自动重启
    说明 复制网络和恢复网络所用的交换机须处于同一个可用区。
    copy
  3. 单击启动
    此时,容灾复制会先后进入启动复制全量复制实时复制中三个阶段。
    • 启动复制:ECS容灾服务正在扫描系统数据,评估总体数据量,这一阶段通常会持续几分钟。
    • 全量复制:ECS容灾服务正在把整台服务器的有效数据传输到阿里云,这一阶段所用时间取决于服务器数据量、网络带宽等因素。控制台进度条将会展示复制进度。
    • 实时复制中:全量复制完成后,阿里云上已经复制了您的全量数据,然后阿里云复制服务AReS(Aliyun Replication Service)将会在服务器上监视所有对磁盘的写操作,并持续地实时复制到阿里云。

(可选)容灾演练

一旦进入实时复制状态,您就可以对服务器进行容灾演练操作了。

容灾演练将被容灾保护的服务器在云上拉起并验证应用正确性,是容灾流程整体中极其重要的一环,其核心意义在于:

  • 方便地验证被容灾保护的应用可以在云上正常拉起。
  • 确保操作人员熟悉容灾恢复流程,确保在主站真正发生故障时,操作人员可以顺畅地进行容灾切换。

按如下步骤进行容灾演练:

  1. 受保护服务器页签,单击要启动容灾演练服务器右侧对应的操作列表下的容灾演练
  2. 容灾演练页面,选择恢复网络IP地址、是否使用ECS规格、选择硬盘类型恢复点弹性公网IP切换后执行脚本
    dr2
    说明
    • 混合云备份服务会自动为每个服务器保留最近24小时的24个恢复点。
    • 如果不使用ECS规格,还需要填写CPU、内存信息。
  3. 单击启动
    此时,阿里云会在后台基于用户选定的时间点将服务器拉起。后台容灾演练过程中,实时数据复制不受影响。
  4. 几分钟后,您会看到容灾演练完成,单击容灾演练信息下的链接,验证数据与应用。
    dr
  5. 验证完成后,单击该服务器右侧对应的操作列表下的清空演练环境,此时恢复出来的ECS会被删除。
    说明 容灾演练恢复出来的ECS验证完成后,建议尽快清空演练环境,以降低费用支出。

步骤四:故障切换

定期的容灾演练保证了您的业务可以随时在云上拉起。而当您的主站发生重大故障,需要在云上马上重启核心业务时,则需要进行故障切换操作。

警告 故障切换操作适用于被保护服务器已经出现严重故障的情形,进行该操作会停掉实时复制流程。您需要重新启动复制,并完成一次全量复制才能对被保护服务器继续进行容灾保护。

按如下步骤进行故障切换:

  1. 受保护服务器页签,在要启动故障切换的服务器右侧对应的操作列表下,单击更多 > 故障切换 > 故障切换
  2. 故障切换对话框中,选择恢复网络IP地址、是否使用ECS规格、选择硬盘类型恢复点弹性公网IP切换后执行脚本
    failover
    注意 当前时间恢复点只能使用一次。
  3. 单击启动
  4. 故障切换完成后,单击故障切换/故障恢复信息下的链接,检查数据和应用。
    DR4
    • 如果检查后发现当前时间点应用运行正常,单击更多 > 故障切换 > 确认故障切换
      说明 在故障切换或者切换恢复点完成,并且已经确认被容灾保护的服务器恢复出的应用已经接管了业务的情况下,完成故障切换操作是为了清理容灾复制在云上占用的资源,节约资源使用。
    • 如果检查后发现当前时间点应用状态不符合要求,例如数据库一致性问题,或者源端被污染的数据已经被同步到另一个地域,请在确认故障切换前,单击更多 > 故障切换 > 切换恢复点
    说明 切换恢复点操作与故障切换操作类似,仅需选择更早的恢复点即可。

步骤五:反向复制

被保护服务器的应用完成从某个地域(如地域A)容灾复制到另一个地域(如地域B)后,还可以实施反向复制,即从地域B反向复制到地域A。

按如下步骤进行反向复制:

  1. 受保护服务器页签,在要启动反向复制的服务器右侧对应操作列表下,单击更多 > 故障恢复 > 反向注册,确认反向注册被保护服务器。
  2. 单击操作列表下的更多 > 故障恢复 > 启动反向复制
  3. 启动反向复制页面,勾选是否进行原机恢复,然后选择复制网络恢复网络
    警告 跨地域及跨可用区容灾支持原机恢复。当使用原机恢复时,所使用的ECS主机中的数据会被清除,请谨慎选择。
  4. 单击启动
  5. 待服务器进入反向实时复制状态时,单击操作列表下的更多 > 故障恢复 > 故障恢复
  6. 故障恢复页面,填写CPU内存信息、选择恢复网络IP地址、编辑恢复后执行脚本
  7. 故障恢复完成后,单击操作列表下的更多 > 故障切换 > 注册,再次注册被保护服务器。