功能概览

本文介绍云盘异步复制容灾,帮助您了解其基本能力和价值。

功能概述

混合云容灾服务基于云盘异步复制技术实现跨地域或者跨可用区容灾能力,应对不同的业务需求。

该技术是在云盘层通过异步复制实现,无需在受保护的实例上安装代理。

当主系统发生故障时,业务系统切换到容灾系统,有效避免了地域性灾害导致的系统故障,保障业务的可用性,满足业务的RTO/RPO核心指标。

云盘异步复制是一种基于块存储数据复制能力实现跨地域或者跨可用区数据保护的功能。更多信息,请参见云盘异步复制功能原理

相比连续复制型容灾(CDR),云盘异步复制技术与其差异如下表格所示:

对比项

连续复制型容灾

云盘异步复制容灾

主要支持场景

适用单虚机容灾。适用于不介意系统侵入的客户。

适用虚机组一致性容灾。适用于不希望有系统侵入的客户。

系统侵入性

复制实现

通过在被保护实例上安装Agent嵌入OS,实时复制磁盘上写入的数据并发送到网关。,网关将数据传输中转站OSS进行存储,最终写入容灾站点磁盘。

通过块存储的云盘异步复制、快照等机制实现数据复制。

恢复实现

支持多恢复点。

备站创建被保护实例的shadowECS和网关机,从数据中转站拉取数据并通过shadowECS写入,然后基于快照机制创建出恢复点。

仅支持单恢复点。

通过快照复制到备端生成恢复点。

一致性保护组

不支持

支持

容灾优势

无代理

无代理的数据复制技术,零侵入性,OS普适性,以及容灾站点计算资源零消耗。

多机一致性

提供多机一致性,可满足企业应用的严格要求。

易理解

从应用出发,用户创建保护组后,将某一应用下的所有ECS添加进该保护组,即可开启复制。您无需关注云盘和ECS的关系,ECS和云盘的对应关系均由HDR服务后台完成。

基本概念

名词

英文

说明

站点对

Site Pair

地域或可用区中的概念,其之间有保护组关系。一个站点对中的保护组的容灾方向只有正向保护一个方向。例如A保护组容灾到B保护组,正向保护是地域1到地域2,C保护组容灾到D保护组,正向保护是地域2到地域1,需要创建两个站点对。保护组只可属于一个站点对。

一个站点对只可以使用一种复制技术。

保护组

  • Protected Group (PG)

  • Consistent Protected Group (CPG)

  • 一个保护组可包含多个ECS实例,便于客户使用一个计划对多个ECS进行同一个时间点的操作。客户可以选择普通类型(多VM之间无关联),或者一致性类型(consistent group)。

  • 一个保护组中的ECS只可使用一种容灾底层实现技术,CDR或者EBS复制。选择哪种底层实现技术需要您在创建保护组时需要确定。

  • 保护组正常状态分为启动复制中、全量复制中、增量复制中、正在切换、故障切换完成、反向复制中、故障恢复中、故障恢复完成等;其异常状态包含复制出错、切换失败、恢复失败等。

  • 一个保护组下面的所有保护实例角色应该一致,因为保护组中的所有ECS只能一起做故障切换。

保护实例

Protected Instance

被保护的ECS实例或未来支持的数据库等。角色分为。主指当前运行业务的实例,备指当前用作容灾使用的实例。

生产站点

Production Site

用户生产业务初始运行的可用区或地域。

容灾站点

DR Site

用户用于生产业务容灾的可用区或地域。

故障切换

Failover

当生产站点发生故障时,切换业务到容灾站点的过程。包括两种类型,计划(planned failover)和非计划(unplanned failover),区别在于切换时生产站点ECS是否已经宕机。

故障恢复

Failback

当生产站点故障恢复时,将业务从容灾站点切回到生产站点的过程。

正向保护

Forward

用于保护组和ECS的状态。生产站点数据和业务复制到容灾站点。

反向保护

Reverse

用于保护组和ECS的状态。当故障切换后,容灾站点B变为“生产站点”,生产站点A变为“容灾站点”。此时重启保护后,数据复制为起始时的反向,方向为B-->A,称为反向保护。故障恢复后,A回到生产站点状态,B回到容灾站点状态,此时启动复制A-->B,回到正向保护状态。

技术架构

基于CDR和云盘异步复制技术的容灾技术架构如下图所示。

image

支持的容灾场景

容灾场景

支持类型

故障切换

  • 数据同步后切换

    该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止后再进行最后一轮数据同步,等待数据同步完成后再启动切换。这样可以保证容灾端与生产端数据完全一致,无数据丢失。该切换模式适用于计划内容灾演练,业务迁移等场景。

  • 立即切换

    该故障切换会尝试停止保护组中被保护的实例,不会等待所有被保护的实例停止,也不会进行最后一轮数据同步,数据在RPO范围内有部分丢失。该模式适用于生产站点确实发生短时无法恢复的故障,需立即切换至容灾站点的场景。

故障恢复

  • 数据同步后切换

    该故障恢复会停止保护组中被保护的实例,并且一直等到所有被保护的实例停止,再进行最后一轮数据同步,并等待数据同步完成后再启动恢复,服务不可用时间会大于“立即切换”的时间,主要用在生产站点正常工作等场景。

  • 立即切换

    该故障恢复会尝试停止保护组中被保护的实例,但不会等待所有被保护的实例停止,也不会进行最后一轮数据同步。立即启动恢复,会导致数据有部分丢失,主要用在容灾站点确实发生短期无法恢复的故障,需立即将业务恢复到生产站点的场景。

使用限制

云盘异步复制容灾在可用地域可用区、ECS规格、云盘和网络方面存在限制。更多信息,请参见使用限制

使用流程

在混合云容灾服务控制台,实现对关键应用的容灾保护,主要步骤包括如下:

  • 步骤一:资源规划。

    进行容灾前,您需要提前规划容灾所需的计算、存储、网络等资源。例如服务器数量、存储容量、划分网络VPC等。

  • 步骤二:创建容灾站点对。

    准备好用于容灾站点的专有网络(VPC)和交换机(vSwitch),并配置好网段。测试使用时,您可以使用默认配置来创建VPC和vSwitch,或者考虑将容灾站点VPC和交换机的网段配成与生产站点一致。正式容灾时,您可以按照实际情况配置网段。

  • 步骤三:设置网络与安全。

    进行资源映射,包括网络可用区、交换机、安全组。

  • 步骤四:创建保护组。

  • 步骤五:添加保护实例。

    添加需要保护的实例。

  • 步骤六:启动复制。

    开始容灾保护,即将生产站点数据复制到容灾站点。

    说明

    保护组处于增量复制中或者已有恢复点之后,您就可以进行故障演练。具体操作,请参见故障演练

  • 步骤七:故障切换

    • 数据同步后切换

      该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止后再进行最后一轮数据同步,等待数据同步完成后再启动切换。这样可以保证容灾端与生产端数据完全一致,无数据丢失。该切换模式适用于计划内容灾演练,业务迁移等场景。

    • 立即切换

      该故障切换会尝试停止保护组中被保护的实例,但不等待所有被保护的实例停止,也不会进行最后一轮数据同步,数据在RPO范围内有部分丢失。该模式适用于生产站点确实发生短时无法恢复的故障,需立即切换至容灾站点的场景。

计费说明

使用云盘异步复制容灾时,会产生以下费用:

  • HDR收取容灾软件使用费

    在公测期间,暂不收费。

  • 容灾端创建的按量付费ECS实例、云盘等费用由ECS收取。更多信息,请参见按量付费

  • 云盘异步复制产生的费用由ECS按量收取。更多信息,请参见云盘异步复制计费