当被保护的服务器完成阿里云复制服务(AReS)安装并重启后,您就可以对受保护的服务器启动、停止容灾复制、故障切换、容灾演练等一系列的应用容灾操作了。

通常情况下,应用容灾的流程如下:
  1. 启动容灾复制,将服务器复制到云上,并维持实时复制。
  2. 按照您指定的具体策略,定期对服务器进行容灾演练,确保服务器能够在阿里云上正常拉起。
  3. 当本地自建数据中心出现重大故障时,对服务器进行故障切换,确保在阿里云上正式运行业务。
  4. 本机出现故障后,在对端(云上)拉起,待本地环境恢复后再将其恢复到本地。

启动容灾复制

容灾的第一步是把应用服务器整机复制到阿里云,并且能够实时复制增量。

  1. 登录混合云容灾控制台
  2. 在连续复制型容灾的受保护服务器页签中,单击要启动容灾复制的服务器对应的操作按钮,选择更多 > 故障切换 > 启动复制
  3. 启动复制对话框中,分别选择恢复点策略,是否使用SSD、根据搭建云上专有网络文档说明,选择用于复制网络恢复网络的交换机。

  4. 单击启动
    此时,容灾复制会先后进入启动复制全量复制实时复制中三个阶段。

    • 启动复制:混合云容灾服务正在扫描系统数据,评估总体数据量,这一阶段通常会持续几分钟。
    • 全量复制:混合云容灾服务正在把整台服务器的有效数据传输到阿里云,这一阶段所用时间取决于服务器数据量、网络带宽等因素。控制台进度条将会展示复制进度。
    • 实时复制中:全量复制完成后,阿里云上已经复制了您的全量数据,然后 AReS 将会在服务器上监视所有对磁盘的写操作,并持续地实时复制到阿里云。

容灾演练

一旦进入实时复制状态,您就可以对服务器进行容灾演练操作了。

容灾演练将被容灾保护的服务器在云上拉起并验证应用正确性,是容灾流程整体中及其重要的一环,它的核心意义在于:

  • 方便地验证复制到阿里云上的应用可以在云上正常拉起。
  • 确保操作人员熟悉容灾恢复流程,确保在本地真正发生故障时,操作人员可以顺畅地进行容灾切换。

容灾演练操作步骤如下:

  1. 在连续复制型容灾的受保护服务器页签中,单击要启动容灾复制的服务器对应的操作栏下的容灾演练
  2. 容灾演练对话框中,填写CPU内存信息、选择IP地址、是否使用SSD、选择恢复点弹性公网IP切换后执行脚本

    说明 公测阶段,混合云容灾服务会自动为每个服务器保留最近 24 小时的 24 个恢复点。
  3. 单击启动
    此时,阿里云会在后台基于用户选定的时间点将服务器拉起。后台容灾演练过程中,实时数据复制不受影响。

  4. 几分钟后,您会看到容灾演练完成,单击容灾演练信息下的链接,验证数据与应用。

  5. 验证完成后,您需要单击该服务器对应的操作栏下的清空演练环境,此时第4步恢复出来的ECS就会被删除。
    说明 容灾演练恢复出来的ECS验证完成后,建议尽快清空演练环境,以降低费用支出。

故障切换

定期的容灾演练保证了您的业务可以随时在云上拉起。而当您的主站发生重大故障,需要在云上马上重启核心业务时,就需要进行故障切换操作了。
警告 故障切换操作适用于云下环境已经出现严重故障的的情形,进行该操作会停掉实时复制流程。您需要重新启动复制,并完成一次全量复制才能对云下服务器继续进行容灾保护。因此除非确实有故障切换的必要,否则不要进行此操作。

故障切换步骤如下:

  1. 在连续复制型容灾的受保护服务器页签中,单击要启动容灾复制的服务器对应的操作栏下的更多 > 故障切换 > 故障切换
  2. 故障切换对话框中,填写CPU内存信息、选择IP地址、是否使用SSD、选择恢复点弹性公网IP切换后执行脚本

    说明 当前时间恢复点只能使用一次。
  3. 单击启动
  4. 故障切换完成后,您可以在单击故障切换/故障恢复信息下的链接,检查数据和应用。

    • 如果检查后发现当前时间点的应用数据没有被污染,可以直接单击更多 > 故障切换 > 确认故障切换操作。
      说明 在故障切换或者切换恢复点完成,并且已经确认阿里云上恢复出的应用已经接管了业务的情况下,完成故障切换操作是为了清理容灾复制在云上占用的资源,节约资源使用。
    • 如果检查后发现当前时间点的应用状态不符合要求,比如数据库一致性问题,或者源端被污染的数据已经被同步到云上,请在确认故障切换前,单击更多 > 故障切换 > 切换恢复点操作。
  5. 您需要单击更多 > 服务器操作 > 注销
    故障切换完成后,云上已经接管业务,被切换的服务器已经不需要进行复制,因此可以直接注销服务器。待云下环境重建后,再重新安装AReS服务,并配置容灾复制。
    说明 切换恢复点操作与故障切换操作类似,仅需选择更早的恢复点即可。

故障恢复

本机出现故障后,在对端(云上)拉起。待本地环境恢复后再将其恢复到本地的过程。具体步骤如下:

  1. 单击添加图标添加计算平台。

  2. 添加计算平台页面,填写计算平台名称、选择类型、填写IP地址用户名密码

  3. 单击创建
  4. 在连续复制型容灾的受保护服务器页签中,单击要启动故障回切的服务器对应的操作栏下的更多 > 故障恢复 > 反向注册
  5. 在弹出的反向注册页面中,单击确认
    此时,服务器状态显示反向注册中,随后进入已反向初始化
  6. 单击更多 > 故障恢复 > 启动反向复制
  7. 启动反向复制页面,选择计算平台,单击编辑选择复制位置计算资源复制存储复制网络,然后勾选使用DHCP

    如果不勾选使用DHCP,您还需要手动填写复制IP地址复制子网掩码复制DNS复制网关信息。

  8. 单击启动
    此时,服务器状态显示启动反向复制,随后进入反向实时复制中

    如果想要停止服务器的反向复制,请单击更多 > 故障恢复 > 停止反向复制

    反向复制将云上数据复制到线下环境,完成后单击更多 > 故障恢复 > 故障恢复启动线下已恢复服务器。

相关操作

受保护服务器页签,单击设置可见列后,勾选所有或部分可见列选项后单击确认,查看服务器ID、RPO、服务器状态等信息。

受保护服务器页签,单击操作栏下的更多 > 收集支持信息查看被保护服务器的支持信息仅涉及容灾操作中容灾服务生成的日志,仅用于定位和解决问题。收集被保护的服务器支持信息后,您可以提交工单描述遇到的问题,工单中注明容灾网关的ID。