文档

灾备规划

更新时间:

云容灾服务因免去了灾备中心建设、硬件系统采购、运维等复杂的工作,加上资源可弹性扩展、按量付费的特性,这些都降低了规划工作的难度。您只需花少量的时间进行选型、规划等就可以轻松使用阿里云作为您的容灾服务提供者。本文将从需求分析、RTO和RPO要求、应用的分析、灾备设备和网络环境等方面阐述如何有效地进行灾备规划。

需求分析

数据保护和业务连续性对数据中心的意义重大,关键应用的故障或数据丢失会对您的业务造成重大损失。混合云容灾服务提供了两个层次的能力来保护数据,并确保业务连续性。

  • 异地备份

    服务器镜像和数据备份后会直接上传至阿里云灾备库,实现高可靠的云上异地备份。稳定的异地备份确保关键数据在本地数据中心发生火灾等极端情况下不丢失,在本地设施修复后恢复至本地。

  • 云上容灾

    为减少因应用故障导致的业务损失,当数据中心出现严重故障无法快速恢复时,混合云容灾服务可以高效地在ECS上快速恢复您的应用。

RTO和RPO要求

应用容灾有两个核心的指标:

  • RPO:指应用发生故障时可以容忍的数据丢失量。数据越重要,RPO就要求越小。RPO越小,往往要求数据备份、复制频率更高,对生产环境、网络的压力也会越大,成本通常也越高。

  • RTO:指故障发生后,期望从启动容灾恢复操作到应用恢复上线所需要的时间。故障单位时间内对业务造成的损失越大,RTO就要求越短。

RTO和RPO一般由业务部门提出要求,与IT部门共同商议,基于技术可行性、对现有系统影响、成本等多方面综合考量综合得出。RTO和RPO标准的高低与基础设施成本往往有线性关系。

您也可以参考国家和行业标准来制定RTO、RPO目标。GB/T 20988-2007标准是中国国家标准化管理委员会制定的信息系统灾难恢复规范。附录中有某行业RPO/RTO的等级规范示例,如下所示。更多信息,请参见GB/T 20988-2007标准标准

混合云容灾服务提供了简单的配置来满足不同的RPO和RTO要求。例如,连续复制型容灾(CDR)可以提供秒级到分钟级的RPO和RTO。

应用的分析

容灾部署前,您需要了解关键应用的部署、环境的依赖以及应用的客户端连接等情况。

  • 应用的部署

    部署关键应用前,您需要考虑以下三个要素:

    • 该应用包含哪些服务器

    • 服务器之间的网络连接

    • 服务器内需要做哪些配置

    例如,一个简单的网页应用包含以下要素:

    • 该应用包含:1个数据库服务器,1个后端服务器,1个Web前端服务器。

    • 3个服务器处于同一网络。

    • 后端服务器内有一个配置项指定数据库服务器IP地址,Web前端服务器有个配置项指明后端服务器IP地址。

    识别这些要素之后,可以做如下计划:

    • 混合云容灾服务需要保护这3台服务器。

    • 阿里云上恢复时,需要将这3台服务器恢复在同一个VPC内。

    • 整机恢复后,为确保这个应用能够运行,必须确保恢复时使用与云下相同的IP地址。或者,确保在恢复完成后用自动化脚本修改配置项。

  • 环境的依赖

    应用容灾是一个需要多部门合作完成的过程,包括应用管理员、机房管理员和网络管理员等角色的配合实施。一个能够满足业务要求的完整的灾备方案需要考虑多个方面的细节,主要包括:

    • 应用所依赖的环境,例如Active Directory(AD)、DNS等

    • 应用所需要的网络配置

    很多情况下,应用的运行还有一些重要的环境依赖。例如在Windows环境中,很多应用都依赖AD运行。那么在云上恢复的时候,您云上的 VPC环境必须能够连接AD服务。当然,DNS服务也是很多环境下的强需求。

    以AD为例,通常会有以下两种情况:

    • 如果您已经在不同的数据中心内部署了多个主从AD服务器,那么您只需要在AD所在的数据中心和云上VPC之间能够建立高速通道或者 SSLVPN连接即可。

    • 如果您的AD服务器是集中部署在一个数据中心,可能发生同一时间离线的情况,建议您:

      • 用混合云灾备一体机保护AD服务器,在云下发生故障时首先恢复这台AD服务器。

      • 在云上VPC里部署一个从AD服务器,与云下的主AD服务器保持连接。云下发生故障时,使用云上AD。

    同样,DNS服务器也需要进行相应的配置才能满足灾备后的应用环境要求。

  • 应用的客户端连接

    应用恢复后,需要确保客户端能够连接恢复出来的应用。通常情况下,您需要:

    • 如果恢复出的应用服务器IP地址与原始的一样,DNS服务器也成功恢复,那么只需要客户端与应用有网络连接即可。您可能需要用SSLVPN或者高速通道来确保客户端能与云上恢复出的应用有连接,或者恢复出的应用提供公网IP地址让客户端接入。

    • 应用恢复的时候不要求必须使用原始IP地址,您也可以修改DNS确保客户端可以连接新的服务。

    • 如果域名和IP地址都发生变化,您需要修改客户端。

灾备设备和网络环境

根据应用服务器的数量、数据量、RPO和RTO的标准、以及所依赖环境设施的要求,您可以合理选用灾备设备并部署合适的网络环境。

  • CDR灾备一体机

    如果支持虚拟化环境,且需要容灾保护的服务器数量少于5台,建议您进行虚拟化部署。

    如果不支持虚拟化环境,或者容灾保护的服务器数量在5台以上,建议使用CDR灾备一体机。可选择的一体机型号如下所示:

    型号

    支持服务器数量

    Apsara DR100

    <20

    Apsara DR200

    <100

  • 网络环境

    以上灾备设备要求的网络环境包括以下两种:

    • 数据中心到阿里云之间的网络

      • 由于优化了数据存储传输算法,混合云容灾服务并不强制要求本地数据中心与阿里云建立专线连接。但是对于大数据量、严格RPO要求的场景,建议您使用专线连接,以确保容灾服务能够达到要求的指标。

      • 应用恢复后,根据客户端、AD、DNS等与阿里云VPC的连接需求,您可能需要考虑通过SSLVPN、高速通道连接、应用暴露公网IP地址等方式来确保应用的正常使用。

    • 混合云灾备一体机到被保护服务器之间的网络

      • 为了对被保护服务器进行正常备份恢复,需要灾备一体机和被保护服务器之间有网络连接。

      • 备份一体机提供了双千兆、双万兆网卡供选择,您可以根据备份恢复吞吐要求按需配置。