云容灾服务因免去了灾备中心建设、硬件系统采购、运维等复杂的工作,加上资源可弹性扩展、按量付费的特性、已经大大降低了规划工作的难度。您只需花少量的时间进行选型、规划等就可以轻松使用阿里云作为您的容灾服务提供者。本文档将从需求分析、RTO/RPO 要求、应用的分析、灾备设备和网络环境等方面阐述如何有效地进行灾备规划。

需求分析

数据保护和业务连续性对数据中心的意义重大,关键应用的故障或数据丢失会对您的业务造成重大损失。混合云容灾服务提供了三个层次的能力来保护数据,并确保业务连续性。

  • 本地备份

    混合云灾备一体机可以按照预设策略将服务器整机镜像和文件备份至本地,并在需要时恢复至虚拟化平台和物理平台,物理平台仅支持文件级恢复。

  • 异地备份

    服务器镜像和数据备份后会直接上传至阿里云灾备库,实现高可靠的云上异地备份。稳定的异地备份确保关键数据在本地数据中心发生火灾等极端情况下不丢失,在本地设施修复后恢复至本地。

  • 云上容灾

    为减少因应用故障导致的业务损失,当数据中心出现严重故障无法快速恢复时,混合云容灾服务可以高效地在 ECS 上快速恢复您的应用。

RTO/RPO要求

应用容灾有两个核心的指标:

  • RPO:指应用发生故障时可以容忍的数据丢失量。数据越重要,RPO 就要求越小。RPO 越高,往往要求数据备份、复制频率更高,对生产环境、网络的压力也会越大,成本通常也越高。

  • RTO:故障发生后,期望从启动容灾恢复操作到应用恢复上线所需要的时间。故障单位时间内对业务造成的损失越大,RTO 就要求越短。

RTO、RPO 一般由业务部门提出要求,与 IT 部门共同商议,基于技术可行性、对现有系统影响、成本等多方面综合考量综合得出。RTO、RPO 标准的高低与基础设施成本往往有线性关系。

您也可以参考国家和行业标准来制定 RTO、RPO 目标。GB/T 20988-2007标准 是中国国家标准化管理委员会制定的信息系统灾难恢复规范。附录中有某行业 RPO/RTO 的等级规范示例,如下所示。

混合云容灾服务提供了简单的配置来满足不同的 RPO 和 RTO 要求。例如,连续复制型容灾(CDR)可以提供秒级到分钟级的 RPO、 RTO,而快照型容灾(SDR)提供了小时级的 RPO、 RTO。

应用的分析

容灾部署前,您需要了解关键应用的部署、环境的依赖以及应用的客户端连接等情况。

  • 应用的部署

    部署关键应用前,您需要考虑以下三个要素:

    • 该应用包含哪些服务器
    • 服务器之间的网络连接
    • 服务器内需要做哪些配置

    例如,一个简单的网页应用包含以下要素:

    • 该应用包含:1 个数据库服务器,1 个后端服务器,1 个 Web 前端服务器。
    • 3 个服务器处于同一网络。
    • 后端服务器内有一个配置项指定数据库服务器 IP,Web 前端服务器有个配置项指明后端服务器 IP。

    识别这些要素之后,可以做如下计划:

    • 混合云容灾服务需要保护这 3 台服务器。
    • 阿里云上恢复时,需要将这3台服务器恢复在同一个 VPC 内。
    • 整机恢复后,为确保这个应用能够运行,必须确保恢复时用与云下相同的 IP。或者,确保在恢复完成后用自动化脚本修改配置项。
  • 环境的依赖
    应用容灾是一个需要多部门合作完成的过程,包括应用管理员、机房管理员和网络管理员等角色的配合实施。一个能够满足业务要求的完整的灾备方案需要考虑多个方面的细节,主要包括:
    • 应用所依赖的环境,比如 Active Directory(AD)、DNS 等
    • 应用所需要的网络配置

    很多情况下,应用的运行还有一些重要的环境依赖。比如在 Windows 环境中,很多应用都依赖 AD 运行。那么在云上恢复的时候,您云上的 VPC 环境必须能够连接 AD 服务。当然,DNS 服务也是很多环境下的强需求。

    以 AD 为例,通常会有以下两种情况:

    • 如果您已经在不同的数据中心内部署了多个主从 AD 服务器 ,那么您只需要在 AD 所在的数据中心和云上 VPC 之间能够建立高速通道或者 SSLVPN 连接即可。

    • 如果您的 AD 服务器是集中部署在一个数据中心,可能发生同一时间离线的情况,建议您:

      • 用混合云灾备一体机保护 AD 服务器,在云下发生故障时首先恢复这台 AD 服务器。
      • 在云上 VPC 里部署一个从 AD 服务器,与云下的主 AD 服务器保持连接。云下发生故障时,使用云上 AD。

    同样,DNS 服务器也需要进行相应的配置才能满足灾备后的应用环境要求。

  • 应用的客户端连接

    应用恢复后,需要确保客户端能够连接恢复出来的应用。通常情况下,您需要:

    • 如果恢复出的应用服务器 IP 与原始的一样,DNS 服务器也成功恢复,那么只需要客户端与应用有网络连接即可。您可能需要用 SSLVPN 或者高速通道来确保客户端能与云上恢复出的应用有连接,或者恢复出的应用提供公网 IP 让客户端接入。

    • 应用恢复的时候不要求必须使用原始 IP,您也可以修改 DNS 确保客户端可以连接新的服务。

    • 如果域名和 IP 都发生变化,您需要修改客户端。

灾备设备和网络环境

根据应用服务器的数量、数据量、RRO/RTO 的标准、以及所依赖环境设施的要求,您可以合理选用灾备设备并部署合适的网络环境。

  • 灾备设备包括 SDR 灾备一体机和 CDR 灾备一体机:
    • SDR 灾备一体机

      根据需要保护的服务器数量、总的数据量、RTO/RPO 要求,您可以选择一款合适的灾备一体机。可选择的一体机型号如下所示:

      型号 支持服务器数量 支持的源数据量 备份恢复吞吐
      HDR1000 <20 <10 TB 0.5 TB/小时
      HDR2000 20~100 20 TB~100 TB 1 TB/小时
    • CDR 灾备一体机

      如果支持虚拟化环境,且需要容灾保护的服务器数量少于 5 台 ,建议您进行虚拟化部署。

      如果不支持虚拟化环境,或者容灾保护的服务器数量在 5 台以上,建议使用 CDR 灾备一体机。可选择的一体机型号如下所示:

      型号 支持服务器数量
      Apsara DR100 < 20
      Apsara DR200 < 50
  • 网络环境

    以上灾备设备要求的网络环境包括以下两种:

    • 数据中心到阿里云之间的网络

      • 由于优化了数据存储传输算法,混合云容灾服务并不强制要求本地数据中心与阿里云建立专线连接。但是对于大数据量、严格 RPO 要求的场景,建议您使用专线连接,以确保容灾服务能够达到要求的指标。

      • 应用恢复后,根据客户端、AD、DNS 等与阿里云 VPC 的连接需求,您可能需要考虑通过 SSLVPN、高速通道连接、应用暴露公网 IP 等方式来确保应用的正常使用。

    • 混合云灾备一体机到被保护服务器之间的网络

      • 为了对被保护服务器进行正常备份恢复,需要灾备一体机和被保护服务器之间有网络连接。

      • 备份一体机提供了双千兆、双万兆网卡供选择,您可以根据备份恢复吞吐要求按需配置。