容灾系统部署在阿里云的两个地域中,当主系统发生故障时,业务系统切换到容灾系统。主系统和容灾系统部署在不同的地域,提供容灾即服务,且RPO可以低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性灾害导致的系统故障。

准备工作

在实现跨地域容灾之前,您需要选择一个不同于生产环境的地域作为容灾目标地域。在该地域上创建云上专有网络(VPC),并创建复制网络交换机和恢复网络交换机。更多信息,请参见搭建云上专有网络

步骤一:创建容灾站点对

准备工作完成后,按如下步骤对源站ECS进行跨地域容灾保护:

  1. 登录混合云备份管理控制台
  2. 在左侧导航栏,选择容灾 > ECS容灾
  3. 站点对信息页面,选择+添加
  4. 创建连续复制型容灾站点对面板,完成以下配置,然后单击创建
    1. 单击区域容灾到区域类型。
    2. 配置主站信息。
      主站用于指定需要容灾的服务器在云上的位置。
      参数 说明
      名称 为主站命名。例如杭州主站。不超过60个字符。命名规则如下:
      • 不能以特殊字符及数字开头。
      • 特殊字符只可包含半角句号(.)、下划线(_)和短划线(-)。
      区域 区域列表中,选择主站所在的地域。例如华东1(杭州)。
      VPC VPC列表中,选择准备工作中为主站创建好的VPC。例如默认VPC。
    3. 配置从站信息。
      从站灾备用的计算和存储资源都会在选中的专有网络环境中创建。
      参数 说明
      名称 为从站命名。例如上海从站。不超过60个字符。命名规则如下:
      • 不能以特殊字符及数字开头。
      • 特殊字符只可包含半角句号(.)、下划线(_)和短划线(-)。
      区域 区域列表中,选择从站所在的地域。例如华东2(上海)。
      VPC VPC列表中,选择从站所属的VPC。例如默认VPC。

步骤二:添加被保护服务器

连续复制型容灾站点对创建完成后,按如下步骤添加被保护服务器:

  1. 在容灾中心的受保护服务器页签,选中步骤一中已创建的容灾站点对。
  2. 单击+添加,勾选要保护的ECS,然后单击确认

    您可以选择至少1个ECS进行保护,最多可以支持10个ECS。

    服务器状态显示客户端安装中,随后显示已初始化。如果服务器状态未显示已初始化,选择更多 > 服务器操作 > 重启服务器以完成客户端初始化。

步骤三:启动复制

启动容灾复制,将服务器复制到云上,并维持实时复制。按如下步骤启动复制:

  1. 单击受保护服务器页签,在要启动容灾复制服务器右侧对应的操作列表,选择更多 > 故障切换 > 启动复制
  2. 启动复制面板,配置如下参数,然后单击启动
    参数 说明
    恢复点策略 从下拉列表中选择创建恢复点的时间间隔,HBR每天每隔该时间创建一个恢复点,单位为小时。
    使用SSD 是否打开使用SSD开关。勾选表示复制过程中使用SSD,使用SSD可以显著提高服务器迁移或故障切换后云上ECS的IO性能,但是会增加使用成本,请按需选择。
    复制网络 从下拉列表中选择复制网络。HBR使用该网络复制容灾数据到云上。

    HBR默认读取从站VPC网络的可用虚拟交换机。复制网络和恢复网络的交换机可以是同一个,同一个网络做恢复时速度更快。复制网络和恢复网络不在一个可用区时,将导致RTO时间变长。建议配置和恢复网络相同的可用区。

    恢复网络 从下拉列表中选择恢复网络。容灾恢复时,HBR使用该网络恢复容灾数据,例如容灾演练或故障切换时恢复出来的ECS使用该网络创建。

    HBR默认读取从站VPC网络的可用虚拟交换机。复制网络和恢复网络的交换机可以是同一个,同一个网络做恢复时速度更快。复制网络和恢复网络不在一个可用区时,将导致RTO时间变长。建议配置和复制网络相同的可用区。

    复制中断后是否自动重启 是否复制中断后启动重启。勾选表示复制中断后,启动重启复制任务。
    此时,容灾复制会先后进入启动复制全量复制实时复制中三个阶段。
    1. 启动复制:ECS容灾服务正在扫描系统数据,评估总体数据量,这一阶段通常会持续几分钟。
    2. 全量复制:ECS容灾服务正在把整台服务器的有效数据传输到阿里云,这一阶段所用时间取决于服务器数据量、网络带宽等因素。控制台进度条将会展示复制进度。
    3. 实时复制中:全量复制完成后,阿里云上已经复制了您的全量数据,然后阿里云复制服务AReS(Aliyun Replication Service)将会在服务器上监视所有对磁盘的写操作,并持续地实时复制到阿里云。

(可选)容灾演练

一旦进入实时复制状态,您就可以对服务器进行容灾演练操作了。

容灾演练将被容灾保护的服务器在云上拉起并验证应用正确性,是容灾流程整体中极其重要的一环,其核心意义在于:

  • 方便地验证被容灾保护的应用可以在云上正常启动。
  • 确保操作人员熟悉容灾恢复流程,确保在主站真正发生故障时,操作人员可以顺畅地进行容灾切换。

按如下步骤进行容灾演练:

  1. 受保护服务器页签,单击要启动容灾演练服务器右侧对应的操作列表下的容灾演练
  2. 容灾演练面板,选择恢复网络IP地址、是否使用ECS规格硬盘类型恢复点弹性公网IP切换后执行脚本。然后单击启动
    说明
    • 混合云备份服务会自动为每个服务器保留最近24小时的24个恢复点。
    • 如果不使用ECS规格,还需要填写CPU、内存信息。
    此时,阿里云会在后台基于用户选定的时间点将服务器启动。后台容灾演练过程中,实时数据复制不受影响。

    几分钟后,您会看到容灾演练完成,单击容灾演练信息下的链接,验证数据与应用。

  3. 清空演练环境。
    验证完成后,单击该服务器右侧对应的操作列表下的清空演练环境,此时恢复出来的ECS会被删除。
    说明 容灾演练恢复出来的ECS验证完成后,建议尽快清空演练环境,以降低费用支出。

步骤四:故障切换

定期的容灾演练保证了您的业务可以随时在云上启动。而当您的主站发生重大故障,需要在云上马上重启核心业务时,则需要进行故障切换操作。

警告 故障切换操作适用于被保护服务器已经出现严重故障的情形,进行该操作会停掉实时复制流程。您需要重新启动复制,并完成一次全量复制才能对被保护服务器继续进行容灾保护。

按如下步骤进行故障切换:

  1. 受保护服务器页签,在要启动故障切换的服务器右侧对应的操作列表下,选择更多 > 故障切换 > 故障切换
  2. 故障切换面板,选择恢复网络IP地址、是否使用ECS规格硬盘类型恢复点弹性公网IP切换后执行脚本。然后单击启动
    重要 当前时间恢复点只能使用一次。
  3. 故障切换完成后,单击故障切换/故障恢复信息下的链接,检查数据和应用。
    • 如果检查后发现当前时间点应用运行正常,选择更多 > 故障切换 > 确认故障切换
      说明 在故障切换或者切换恢复点完成,并且已经确认被容灾保护的服务器恢复出的应用已经接管了业务的情况下,完成故障切换操作是为了清理容灾复制在云上占用的资源,节约资源使用。
    • 如果检查后发现当前时间点应用状态不符合要求,例如数据库一致性问题,或者源端被污染的数据已经被同步到另一个地域,请在确认故障切换前,选择更多 > 故障切换 > 更换恢复点
    说明 切换恢复点操作与故障切换操作类似,仅需选择更早的恢复点即可。

步骤五:反向复制

被保护服务器的应用完成从某个地域(如地域A)容灾复制到另一个地域(如地域B)后,还可以实施反向复制,即从地域B反向复制到地域A。

按如下步骤进行反向复制:

  1. 受保护服务器页签,在要启动反向复制的服务器右侧对应操作列表下,选择更多 > 故障恢复 > 反向注册,确认反向注册被保护服务器。
  2. 操作列表,选择更多 > 故障恢复 > 启动反向复制
  3. 启动反向复制面板,勾选是否进行原机恢复,选择复制网络恢复网络。然后单击启动
    警告 跨地域及跨可用区容灾支持原机恢复。当使用原机恢复时,所使用的ECS主机中的数据会被清除,请谨慎选择。
  4. 待服务器进入反向实时复制状态时,在操作列表,选择更多 > 故障恢复 > 故障恢复
  5. 故障恢复面板,填写CPU内存信息、选择恢复网络IP地址、编辑恢复后执行脚本
  6. 故障恢复完成后,在操作列表,选择更多 > 故障切换 > 注册,再次注册被保护服务器。