文档

步骤五:应用容灾

更新时间:
重要

本文中含有需要您注意的重要提示信息,忽略该信息可能对您的业务造成影响,请务必仔细阅读。

当被保护的服务器完成阿里云复制服务(AReS)安装并重启后,您就可以对受保护的服务器启动、停止容灾复制、故障切换、容灾演练等一系列的应用容灾操作。

前提条件

已安装阿里云复制服务。更多信息,请参见步骤四:安装阿里云复制服务

操作流程

说明

在容灾环境搭建过程中,不需要购买ECS。在应用容灾时自动拉起ECS(由您指定的ECS规格)实例,该ECS实例规格费用由ECS收取。容灾演练恢复出来的ECS实例,也会收取费用。验证完成后,建议尽快清空演练环境(自动删除ECS),以降低费用支出。

通常情况下,应用容灾的流程如下:

  1. 启动复制

  2. (可选)容灾演练

  3. 故障切换

  4. 故障恢复

启动复制

启动容灾复制,将服务器复制到云上,并维持实时复制。按如下步骤启动复制:

  1. 登录混合云容灾管理控制台

  2. 单击切换到连续复制型容灾

  3. 在左侧导航栏,选择连续复制型容灾 > 云上容灾

  4. 受保护服务器页签,在要启动容灾复制服务器右侧对应的操作列表下,选择更多 > 故障切换 > 启动复制

  5. 启动复制页面,分别选择恢复点策略使用SSD复制网络恢复网络,以及复制中断后是否自动重启。单击启动

    说明

    复制网络和恢复网络所用的交换机须处于同一个可用区。

    copy

    此时,容灾复制会先后进入启动复制全量复制实时复制中三个阶段。copying

    • 启动复制:ECS容灾服务正在扫描系统数据,评估总体数据量,这一阶段通常会持续几分钟。

    • 全量复制:ECS容灾服务正在把整台服务器的有效数据传输到阿里云,这一阶段所用时间取决于服务器数据量、网络带宽等因素。控制台进度条将会展示复制进度。

    • 实时复制中:全量复制完成后,阿里云上已经复制了您的全量数据,然后阿里云复制服务AReS(Aliyun Replication Service)将会在服务器上监视所有对磁盘的写操作,并持续地实时复制到阿里云。

(可选)容灾演练

按照您指定的具体策略,定期对服务器进行容灾演练,确保服务器能够在阿里云上正常拉起。

当服务器进入实时复制状态,您就可以对服务器进行容灾演练操作了。

容灾演练将被容灾保护的服务器在云上拉起并验证应用正确性,是容灾流程整体中极其重要的一环,其核心意义在于:

  • 方便地验证被容灾保护的应用可以在云上正常拉起。

  • 确保操作人员熟悉容灾恢复流程,当主站真正发生故障时,操作人员可以顺畅地进行容灾切换。

按如下步骤进行容灾演练:

  1. 受保护服务器页签,单击要启动容灾演练服务器右侧对应的操作列表下的容灾演练

  2. 容灾演练页面,选择恢复网络IP地址使用ECS规格硬盘类型恢复点弹性公网IP切换后执行脚本。单击启动

    dr2

    说明
    • 云备份会自动为每个服务器保留最近24小时的24个恢复点。

    • 如果不使用ECS规格,还需要填写CPU、内存信息。

    此时,阿里云会在后台基于用户选定的时间点将服务器拉起。后台容灾演练过程中,实时数据复制不受影响。

    几分钟后,您会看到容灾演练完成,单击容灾演练信息下的链接,验证数据与应用。dr

  3. 验证完成后,单击该服务器右侧对应的操作列表下的清空演练环境,此时恢复出来的ECS会被删除。

    说明

    容灾演练恢复出来的ECS验证完成后,建议尽快清空演练环境,以降低费用支出。

故障切换

当本地自建数据中心出现重大故障时,对服务器进行故障切换,确保在阿里云上正常运行业务。而当您的主站发生重大故障,需要在云上马上重启核心业务时,则需要进行故障切换操作。

警告

故障切换操作适用于被保护服务器已经出现严重故障的情形,进行该操作会停掉实时复制流程。您需要重新启动复制,并完成一次全量复制才能对被保护服务器继续进行容灾保护。

按如下步骤进行故障切换:

  1. 受保护服务器页签,在要启动故障切换的服务器右侧对应的操作列表下,单击更多 > 故障切换 > 故障切换

  2. 故障切换对话框,选择恢复网络IP地址、是否使用ECS规格、选择硬盘类型恢复点弹性公网IP切换后执行脚本。单击启动

    重要

    当前时间恢复点只能使用一次。

    failover

  3. 故障切换完成后,单击故障切换/故障恢复信息下的链接,检查数据和应用。

    DR4

    • 如果检查后发现当前时间点应用运行正常,选择更多 > 故障切换 > 确认故障切换

      说明

      在故障切换或者切换恢复点完成,并且已经确认被容灾保护的服务器恢复出的应用已经接管了业务的情况下,完成故障切换操作是为了清理容灾复制在云上占用的资源,节约资源使用。

    • 如果检查后发现当前时间点应用状态不符合要求,例如数据库一致性问题,或者源端被污染的数据已经被同步到另一个地域,请在确认故障切换前,选择更多 > 故障切换 > 切换恢复点

    说明

    切换恢复点操作与故障切换操作类似,仅需选择更早的恢复点即可。

故障恢复

本机出现故障后在云上拉起本地业务,待本地环境恢复后再将其恢复到本地。具体步骤如下:

  1. 主站点管理页签,单击+添加

    list

  2. 添加计算平台页面,填写计算平台名称,选择类型,填写IP地址用户名密码。单击创建platform

  3. 在连续复制型容灾的受保护服务器页签,选择要启动故障回切的服务器对应的操作栏下的更多 > 故障恢复 > 反向注册

  4. 在弹出的反向注册面板,单击确认

    此时,服务器状态显示反向注册中,随后进入已反向初始化

  5. 选择更多 > 故障恢复 > 启动反向复制

  6. 启动反向复制面板,选择计算平台,单击编辑选择复制位置计算资源复制存储复制网络,然后选中使用DHCP。单击启动

    takeover如果不选中使用DHCP,您还需要手动填写复制IP地址复制子网掩码复制DNS复制网关信息。reverse-takeover

    此时,服务器状态显示启动反向复制,随后进入反向实时复制中

    如果想要停止服务器的反向复制,选择更多 > 故障恢复 > 停止反向复制

    反向复制将云上数据复制到线下环境,完成后单击更多 > 故障恢复 > 故障恢复启动线下已恢复服务器。

相关操作

受保护服务器页签,单击设置可见列,选中所有或部分可见列选项后单击确认,查看服务器ID、RPO、服务器状态等信息。设置可见列

操作列表下,选择更多 > 收集支持信息,查看被保护服务器的支持信息仅涉及容灾操作中容灾服务生成的日志,用于定位和解决问题。收集被保护的服务器支持信息后,您可以提交工单描述遇到的问题,并在工单中注明容灾网关的ID。

后续步骤