当生产站点因为不可抗力因素(比如火灾、地震)或者设备故障(软、硬件破坏)导致应用在短时间内无法恢复时,混合云容灾服务支持业务的跨可用区(Zone)的容灾能力,对整体的应用做容灾备份来应对单地区的故障,满足业务的RTO/RPO核心指标。

前提条件

在实现跨可用区容灾之前,需要选择一个其他可用区创建云上专有网络(VPC),并在目的端创建复制网络交换机和恢复网络交换机。更多信息,请参见搭建云上专有网络

步骤一:创建容灾站点对

按如下步骤对源站ECS进行跨可用区容灾保护:

  1. 登录混合云容灾管理控制台
  2. 概览页面,单击+连续复制型容灾
  3. 创建连续复制型容灾站点对面板,填写以下各项参数,然后单击创建
    可用区
    参数类型 参数名称 参数说明
    容灾类型 类型 容灾类型,该场景取值可用区容灾到可用区。取值包括:
    • IDC容灾到云:将自建数据中心数据实时复制上云。
    • 区域容灾到区域:将主地域数据实时复制到另一个容灾地域。
    • 可用区容灾到可用区:将主地域可用区数据实时复制到主地域的另一个可用区。
    主站信息、从站信息 名称 为主站和从站命名,名称不得超过60个字符。一个可辨识的名称即可,容灾网关部署等操作需在站点对创建完成后进行。
    区域 主站和从站所在地域。
    VPC 主站和从站所使用的专有网络VPC。
    容灾站点对创建完成后,您可以在概览页面的容灾站点对列表中找到已创建的容灾站点对。

    如配置有误,您可以单击该容灾站点对右侧对应的删除删除图标,删除已创建的容灾站点对,之后再创建。

步骤二:添加被保护服务器

连续复制型容灾站点对创建完成后,按以下步骤添加被保护服务器:

  1. 在左侧导航栏,选择连续复制型容灾 > 云上容灾
  2. 在页面右上角,选择容灾站点对。
  3. 在容灾中心的受保护服务器页签,单击+添加
  4. 添加被保护服务器面板,选择被保护的ECS实例,单击确认
    服务器状态显示客户端安装中,随后显示已初始化
  5. 如果服务器状态未显示已初始化,请选择更多 > 服务器操作 > 重启服务器以完成初始化。

步骤三:启动复制

启动容灾复制,将ECS实例复制到云上,并维持实时复制。具体步骤如下:

  1. 在左侧导航栏,选择连续复制型容灾 > 云上容灾
  2. 在页面右上角,选择容灾站点对。
  3. 单击容灾中心的受保护服务器页签。
  4. 在目标服务器对应的操作列,选择更多 > 故障切换 > 启动复制
  5. 启动复制面板,配置以下参数,然后单击启动
    启动复制
    参数名称 参数说明
    恢复点策略 恢复点创建策略。HDR每天间隔该时间创建一个恢复点,单位为小时。
    使用SSD 是否打开使用SSD开关。勾选表示复制过程中使用SSD,使用SSD可以显著提高服务器迁移或故障切换后云上ECS的IO性能,但是会增加使用成本,请按需选择。
    复制网络 从下拉列表中选择复制网络。HDR使用该网络复制容灾数据到云上。

    HDR默认读取从站VPC网络的可用虚拟交换机。复制网络和恢复网络的交换机可以是同一个,同一个网络做恢复时速度更快。复制网络和恢复网络不在一个可用区时,将导致RTO时间变长。建议配置和恢复网络相同的可用区。

    恢复网络 从下拉列表中选择恢复网络。容灾恢复时,HDR使用该网络恢复容灾数据,例如容灾演练或故障切换时恢复出来的ECS使用该网络创建。

    HDR默认读取从站VPC网络的可用虚拟交换机。复制网络和恢复网络的交换机可以是同一个,同一个网络做恢复时速度更快。复制网络和恢复网络不在一个可用区时,将导致RTO时间变长。建议配置和复制网络相同的可用区。

    复制中断后自动重启 是否打开复制中断后启动重启开关。勾选表示复制中断后,启动重启复制任务。
    此时,容灾复制会先后进入启动复制全量复制实时复制中三个阶段。
    • 启动复制:HDR正在扫描系统数据,评估总体数据量,这一阶段通常会持续几分钟。
    • 全量复制:HDR正在把整台服务器的有效数据传输到阿里云,这一阶段所用时间取决于服务器数据量、网络带宽等因素。控制台进度条将会展示复制进度。
    • 实时复制中:全量复制完成后,阿里云上已经复制了您的全量数据,然后AReS将会在服务器上监视所有对磁盘的写操作,并持续地实时复制到阿里云。

(可选)容灾演练

一旦进入实时复制状态,您就可以对服务器进行容灾演练操作了。

容灾演练将被容灾保护的服务器在云上拉起并验证应用正确性,是容灾流程整体中及其重要的一环,它的核心意义在于:

  • 方便地验证被容灾保护的应用可以在云上正常拉起。
  • 确保操作人员熟悉容灾恢复流程,确保在主站真正发生故障时,操作人员可以顺畅地进行容灾切换。

容灾演练操作步骤如下:

  1. 在左侧导航栏,选择连续复制型容灾 > 云上容灾
  2. 在页面右上角,选择容灾站点对。
  3. 单击容灾中心的受保护服务器页签。
  4. 单击目标服务器的容灾演练
  5. 容灾演练面板,配置以下参数,然后单击启动
    可用区-容灾演练
    说明
    • HDR会自动为每个服务器保留最近24小时的24个恢复点。
    • 如果不使用ECS规格,还需要填写CPU、内存信息。
    参数名称 参数说明
    实例名称 系统自动生成容灾的ECS实例名称。默认可不修改。
    IP地址 容灾时,创建的ECS实例的IP地址的生成方式。支持包括:
    • 保留当前IP:生成实例的IP地址和主站点实例IP地址相同。恢复网络的交换机网段必须包含服务器的IP地址,才可选择此方式。
    • DHCP:动态分配IP地址。
    • 手动指定:手动指定恢复演练ECS实例的IP地址。
    使用ECS规格 选择使用ECS规格,则选择ECS实例已存在规格。否则需要手动输入CPU内存数据,用于指定容灾ECS实例的规格。
    使用SSD 是否打开使用SSD开关。勾选表示复制过程中使用SSD,使用SSD可以显著提高服务器迁移或故障切换后云上ECS的IO性能,但是会增加使用成本,请按需选择。
    恢复点 默认从当前时间的恢复点,恢复ECS实例。可通过编辑选择其他恢复点。
    切换后执行脚本 在此处编辑容灾切换后,您期望执行的脚本。
    此时,HDR会基于您选定的时间点将服务器拉起。容灾演练过程中,实时数据复制不受影响。容灾演练2
  6. 几分钟后,容灾演练完成。单击容灾演练信息下的链接,验证数据与应用。容灾演练3
  7. 验证完成后,单击操作栏下的清空演练环境,此时恢复出来的ECS就会被删除。
    说明 容灾演练恢复出来的ECS验证完成后,建议尽快清空演练环境,以降低费用支出。

步骤四:故障切换

定期的容灾演练保证了您的业务可以随时在云上拉起。而当您的主站发生重大故障,需要在云上马上重启核心业务时,就需要进行故障切换操作了。

警告 故障切换操作适用于被保护服务器已经出现严重故障的情形,进行该操作会停掉实时复制流程。您需要重新启动复制,并完成一次全量复制才能对被保护服务器继续进行容灾保护。

故障切换步骤如下:

  1. 在左侧导航栏,选择连续复制型容灾 > 云上容灾
  2. 在页面右上角,选择容灾站点对。
  3. 受保护服务器页签中,选择要故障切换的服务器对应的操作栏下的更多,选择故障切换 > 故障切换
  4. 故障切换面板,配置以下参数,然后单击启动
    重要 当前时间恢复点只能使用一次。
    参数名称 参数说明
    实例名称 系统自动生成容灾的ECS实例名称。默认可不修改。
    恢复网络 从下拉列表中选择恢复网络。容灾时,HDR使用该网络恢复容灾数据。

    HDR默认读取从站VPC网络的可用虚拟交换机。复制网络和恢复网络不在一个可用区时,将导致RTO时间变长。建议配置和复制网络相同的可用区。

    IP地址 容灾时,创建的ECS实例的IP地址的生成方式。支持包括:
    • 保留当前IP:生成实例的IP地址和主站点实例IP地址相同。恢复网络的交换机网段必须包含服务器的IP地址,才可选择此方式。
    • DHCP:动态分配IP地址。
    • 手动指定:手动指定恢复演练ECS实例的IP地址。
    使用ECS规格 选择使用ECS规格,则选择ECS实例已存在规格。否则需要手动输入CPU内存数据,用于指定容灾ECS实例的规格。
    硬盘类型 容灾ECS实例的硬盘类型。包括高效云盘、ESSD和SSD。

    HDR默认读取从站VPC网络的可用虚拟交换机。复制网络和恢复网络不在一个可用区时,将导致RTO时间变长。建议配置和复制网络相同的可用区。

    恢复点 默认从当前时间的恢复点,恢复ECS实例。可通过编辑选择其他恢复点。
    弹性公网IP 为容灾ECS实例选择一个弹性公网IP地址。
    切换后执行脚本 在此处编辑容灾切换后,您期望执行的脚本。
    故障切换完成后,您可以在单击故障切换/故障恢复信息下的链接,检查数据和应用。故障切换
    说明 若受保护服务器表格未显示故障切换/故障恢复信息列,请单击设置可见列配置即可。
    • 如果检查后发现当前时间点应用运行正常,选择更多 > 故障切换 > 确认故障切换,确认故障切换。
      说明 在故障切换或者切换恢复点完成,并且已经确认被容灾保护的服务器恢复出的应用已经接管了业务的情况下,完成故障切换操作是为了清理容灾复制在云上占用的资源,节约资源使用。
    • 如果检查后发现当前时间点应用状态不符合要求,例如数据库一致性问题,或者源端被污染的数据已经被同步到另一个地域,请在确认故障切换前,选择更多 > 故障切换 > 切换恢复点,重新选择恢复点。
      说明 切换恢复点操作与故障切换操作类似,仅需选择更早的恢复点即可。

步骤五:反向复制

被保护服务器的应用完成从某个地域(如地域A)容灾复制到另一个地域(如地域B)后,还可以实施反向复制,即从地域B反向复制到地域A。

  1. 在左侧导航栏,选择连续复制型容灾 > 云上容灾
  2. 在页面右上角,选择容灾站点对。
  3. 受保护服务器页签中,选择目标服务器的更多 > 故障恢复 > 反向注册,确认反向注册被保护服务器。
    服务器状态变更为反向注册中,之后变更为已反向初始化
  4. 启动反向复制。
    1. 选择更多 > 故障恢复 > 启动反向复制
    2. 启动反向复制面板,配置以下参数,然后单击启动
      参数名称 参数说明
      原机恢复 是否原机恢复。
      警告 跨地域及跨可用区容灾支持原机恢复。当使用原机恢复时,所使用的ECS主机中的数据会被清除,请谨慎选择。
      复制网络 从下拉列表中选择恢复网络。容灾时,HDR使用该网络恢复容灾数据。

      HDR默认读取从站VPC网络的可用虚拟交换机。复制网络和恢复网络不在一个可用区时,将导致RTO时间变长。建议配置和复制网络相同的可用区。

      恢复网络 从下拉列表中选择恢复网络。容灾时,HDR使用该网络恢复容灾数据。

      HDR默认读取从站VPC网络的可用虚拟交换机。复制网络和恢复网络不在一个可用区时,将导致RTO时间变长。建议配置和复制网络相同的可用区。

      此时,服务器状态变更为启动反向复制,反向全量复制过程中会显示复制进度。
  5. 待服务器进入反向实时复制状态时,启动故障恢复。
    1. 选择更多 > 故障恢复 > 故障恢复
    2. 故障恢复面板,配置以下参数,然后单击启动
      参数名称 参数说明
      实例名称 系统自动生成故障恢复后的ECS实例名称。默认可不修改。
      使用ECS规格 选择使用ECS规格,则选择ECS实例已存在规格。否则需要手动输入CPU内存数据,用于指定故障恢复后ECS实例的规格。
      恢复网络 从下拉列表中选择恢复网络。故障恢复时,HDR使用该网络恢复容灾数据。

      HDR默认读取从站VPC网络的可用虚拟交换机。复制网络和恢复网络不在一个可用区时,将导致RTO时间变长。建议配置和复制网络相同的可用区。

      IP地址 故障恢复时,创建的ECS实例的IP地址的生成方式。支持包括:
      • 保留当前IP:生成实例的IP地址和主站点实例IP地址相同。恢复网络的交换机网段必须包含服务器的IP地址,才可选择此方式。
      • DHCP:动态分配IP地址。
      • 手动指定:手动指定ECS实例的IP地址。
      切换后执行脚本 在此处编辑容灾切换后,您期望执行的脚本。
      此时,服务器状态变更为故障恢复中。故障恢复完成后,您可以在单击故障切换/故障恢复信息下的链接,检查恢复后的ECS实例情况。

更多参考