全部产品
阿里云办公

灾备规划

更新时间:2018-09-20 10:29:49

企业级IT系统的容灾往往需要比较细致的规划工作。云容灾服务因为免去了灾备中心建设,硬件系统采购,运维等复杂的工作,又有资源弹性扩展,按量付费的特性,已经大大降低了规划工作的难度。但用户依然需要花一定时间来规划,选型。这篇文章将会简略介绍容灾规划的过程。若您计划使用阿里云作为您的容灾服务提供者,也可以发工单咨询。

需求分析

数据保护和业务连续性对数据中心的意义重大。关键应用的故障或数据丢失会对您的业务造成重大损失。混合云容灾服务提供了三个层次的能力来保护数据,并确保业务连续性:

  • 本地备份

    混合云灾备一体机可以按照预设策略将服务器整机镜像和文件备份至本地,并在需要时恢复至虚拟化平台和物理平台(物理平台仅支持文件级恢复)。

  • 异地备份

    服务器镜像和数据备份后会直接上传至阿里云灾备库,实现高可靠的云上异地备份。稳定的异地备份确保关键数据在本地数据中心发生火灾等极端情况下不丢失,在本地设施修复后恢复至本地。

  • 云上容灾

    为减少因应用故障导致的业务损失,当数据中心出现严重故障无法快速恢复时,混合云容灾服务可以高效地在ECS上快速恢复您的应用。

RTO/RPO要求

应用容灾有两个核心的指标:

  • RPO:指应用发生故障时可以容忍的数据丢失量。数据越重要,RPO就要求越小。RPO越高,往往要求数据备份/复制频率更高,对生产环境、网络的压力也会越大,成本通常也越高。

  • RTO:故障发生后,期望的从启动容灾恢复操作到应用恢复上线所需要的时间。故障单位时间内对业务造成的损失越大,RTO就要求越短。

RTO、RPO一般由业务部门提出要求,与IT部门共同商议,基于技术可行性、对现有系统影响、成本等多方面综合考量综合得出。RTO、RPO标准的高低与基础设施负责读和实施成本往往有线性关系。

您也可以参考国家和行业标准来制定RTO、RPO目标。GB/T 20988-2007是中国国家标准化管理委员会制定的信息系统灾难恢复规范。附录中有某行业RPO/RTO的等级规范示例,如下所示。

RPO/RTO等级规范示例

数据来源:GB/T 20988-2007标准

混合云容灾服务提供了简单的配置来满足不同的RPO和RTO要求。关键业务型可以提供秒级到分钟级的RPO, RTO,而标准型提供了小时级别的指标。

应用的部署

容灾的第一步:了解关键应用是如何部署的,主要元素有:

  • 该应用包含哪些服务器
  • 服务器之间的网络连接
  • 服务器内需要做哪些配置

例如,一个简单的网页应用包含以下元素:

  • 应用有3个服务器:1个数据库服务器,1个后端服务器,1个Web前端服务器
  • 3个服务器处于同一网络
  • 后端服务器内有一个配置项指定数据库服务器IP,Web前端服务器有个配置项指明后端服务器IP

识别这些要素之后,可以做如下计划:

  • 混合云容灾服务需要保护这3台服务器。
  • 阿里云上恢复时,需要将这3台服务器恢复在同一个VPC内。
  • 整机恢复后,为确保这个应用能够运行,必须确保恢复时用与云下相同的IP,或者,确保在恢复完成后用自动化脚本修改配置项。

环境的依赖

应用容灾是一个需要多部门合作完成的过程,包括应用管理员、机房管理员和网络管理员等角色的配合实施。一个能够满足业务要求的完整的灾备方案需要考虑多个方面的细节,主要包括:

  • 应用的部署、需要保护的服务器以及各个服务器的配置项
  • 应用所依赖的环境,比如Active Directory,DNS等
  • 应用所需要的网络配置

很多情况下应用的运行还有一些重要的环境依赖。比如在Windows环境中,很多应用都依赖Active Directory运行。那么在云上恢复的时候,您云上的VPC环境里能够连接AD服务。DNS服务也是在很多环境下的强需求。

以AD为例,通常会有两种情况:

  • 如果您的AD已经在不同的数据中心内部署了多个主从,几乎不可能所有AD都故障,那么您只需要在AD所在的数据中心和云上VPC之间能够建立高速通道或者SSLVPN链接即可。

  • 如果您的AD是集中部署在一个数据中心,可能发生同一时间离线的情况,建议您:

    • 用混合云灾备一体机保护AD服务器,云下发生故障时首先恢复这台AD服务器。
    • 在云上VPC里做一个从AD服务器,与云下的AD主服务器保持连接。云下发生故障时,使用云上AD。

同样,DNS服务器也会需要进行相应的配置才能满足灾备以后的应用环境要求。

应用的客户端连接

应用恢复后,需要确保客户端能够连接恢复出来的应用。通常情况下,您需要:

  • 如果恢复出的应用服务器IP与原始的一样,DNS服务器也成功恢复,那么只需要客户端与应用有网络连接即可。您可能需要用SSLVPN或者高速通道来确保客户端和云上恢复出的应用有连接,或者恢复出的应用提供公网IP让客户端接入。

  • 应用恢复的时候不要求必须使用原始IP,您也可以修改DNS确保客户端可以连接新的服务。

  • 如果域名和IP都发生变化,您需要修改客户端。

灾备设施规划

根据应用服务器的数量、数据量、RRO/RTO的标准,以及所依赖环境设施的要求,您可以合理规划灾备设施。

灾备设施主要包括混合云灾备一体机(标准型),混合云容灾网关和网络。

混合云灾备一体机(标准型适用)

根据需要保护的服务器数量和总的数据量、RTO/RPO要求,您可以选择一款合适的灾备一体机。可选择的一体机型号如下所示:

型号 支持服务器数量 支持的源数据量 备份恢复吞吐
HDR1000 <20 <10 TB 0.5 TB/小时
HDR2000 20~100 20 TB~100 TB 1 TB/小时

网络

灾备设施要求的网络包括以下两种:

  • 数据中心到阿里云之间的网络

    • 由于优化的数据存储传输算法,混合云容灾服务并不强制需要本地数据中心与阿里云建立专线链接。但是对于大数据量、严格RPO要求的场景,建议您利用专线连接,以确保容灾服务能够达到要求的指标。

    • 根据应用恢复后,客户端、AD、DNS等与阿里云VPC的连接需求,您可能需要考虑SSLVPN/高速通道链接或者应用暴露公网IP等方式来确保应用可以被正常使用。

  • 混合云灾备一体机到被保护服务器之间的网络

    • 为了对被保护服务器进行正常备份恢复,需要灾备一体机和被保护服务器有网络连接。

    • 备份一体机提供了双千兆/双万兆网卡供选择,您可以根据备份恢复吞吐要求按需配置。