全部产品
弹性计算 会员服务 网络 安全 移动云 数加·大数据分析及展现 数加·大数据应用 管理与监控 云通信 阿里云办公 培训与认证 更多
存储与CDN 数据库 域名与网站(万网) 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 开发者工具 解决方案 物联网 智能硬件

灾备规划和环境准备

更新时间:2018-03-30 16:59:46

需求分析

数据保护和业务连续性对数据中心的意义重大。关键应用的故障或数据丢失会对您的业务造成重大损失。混合云容灾服务提供了三个层次的能力来保护数据,并确保业务连续性:

  • 本地备份

    混合云灾备一体机可以按照预设策略将服务器整机镜像和文件备份至本地,并在需要时恢复至虚拟化平台和物理平台(物理平台仅支持文件级恢复)。

  • 异地备份

    服务器镜像和数据备份后会直接上传至OSS,由OSS提供11个9的数据持久性保障。稳定的异地备份保障关键数据在本地数据中心发生火灾等极端情况下不丢失,在本地设施修复后恢复至本地。

  • 云上容灾

    为减少因应用故障导致的业务损失,当数据中心出现严重故障无法快速恢复时,混合云容灾服务可以基于您的服务器镜像备份和数据备份,高效地在ECS上快速恢复您的应用。

RTO/RPO要求

应用容灾有两个核心的指标:

  • RPO:指应用发生故障时可以容忍的数据丢失量。数据越重要,RPO就要求越小。RPO越高,往往要求数据备份/复制频率更高,对生产环境、网络的压力也会越大,成本通常也越高。

  • RTO:故障发生后,期望的从启动容灾恢复操作到应用恢复上线所需要的时间。故障单位时间内对业务造成的损失越大,RTO就要求越短。

RTO、RPO一般由业务部门提出要求,与IT部门共同商议,基于技术可行性、对现有系统影响、成本等多方面综合考量综合得出。RTO、RPO标准的高低与基础设施负责读和实施成本往往有线性关系。

您也可以参考国家和行业标准来制定RTO、RPO目标。GB/T 20988-2007是中国国家标准化管理委员会制定的信息系统灾难恢复规范。附录中有某行业RPO/RTO的等级规范示例,如下所示。

RPO/RTO等级规范示例

数据来源:GB/T 20988-2007标准

混合云容灾服务提供了简单的配置来满足不同的RPO和RTO要求。

  • 备份计划中可以配置全量备份、增量备份的时间和频率,提供丰富的RPO选择。

  • 云上容灾恢复网关提供了两种模式满足不同的RTO要求:

    • 全冷模式:容灾恢复网关只在需要做容灾恢复时才部署、开机。使用这种模式在云上恢复应用时,需要等待恢复网关开机,并将备份数据整理后恢复。因此RTO较长,但平时仅需要支付OSS存储费用。

    • 暖模式:容灾恢复网关保持开机,并将云上备份数据实时整理,预备恢复。如果发生云下故障,马上可以启动容灾恢复流程,缩短应用恢复时间,单个服务器最短可以在30分钟内恢复完成。

环境准备

应用容灾是一个需要多部门合作完成的过程,包括应用管理员、机房管理员和网络管理员等角色的配合实施。一个能够满足业务要求的完整的灾备方案需要考虑多个方面的细节,主要包括:

  • 应用的部署、需要保护的服务器以及各个服务器的配置项
  • 应用所依赖的环境,比如Active Directory,DNS等
  • 应用所需要的网络配置

应用的部署

容灾的第一步:了解关键应用是如何部署的,主要元素有:

  • 该应用包含哪些服务器
  • 服务器之间的网络连接
  • 服务器内需要做哪些配置

例如,一个简单的网页应用包含以下元素:

  • 应用有3个服务器:1个数据库服务器,1个后端服务器,1个Web前端服务器
  • 3个服务器处于同一网络
  • 后端服务器内有一个配置项指定数据库服务器IP,Web前端服务器有个配置项指明后端服务器IP

识别这些要素之后,可以做如下计划:

  • 混合云容灾服务需要保护这3台服务器。
  • 阿里云上恢复时,需要将这3台服务器恢复在同一个VPC内。
  • 整机恢复后,为确保这个应用能够运行,必须确保恢复时用与云下相同的IP,或者,确保在恢复完成后用自动化脚本修改配置项。

环境和网络依赖

很多情况下应用的运行还有一些重要的环境依赖。比如在Windows环境中,很多应用都依赖Active Directory运行。那么在云上恢复的时候,您云上的VPC环境里能够连接AD服务。DNS服务也是在很多环境下的强需求。

以AD为例,通常会有两种情况:

  • 如果您的AD已经在不同的数据中心内部署了多个主从,几乎不可能所有AD都故障,那么您只需要在AD所在的数据中心和云上VPC之间能够建立高速通道或者SSLVPN链接即可。

  • 如果您的AD是集中部署在一个数据中心,可能发生同一时间离线的情况,建议您:

    • 用混合云灾备一体机保护AD服务器,云下发生故障时首先恢复这台AD服务器。
    • 在云上VPC里做一个从AD服务器,与云下的AD主服务器保持连接。云下发生故障时,使用云上AD。

DNS服务器的策略与AD类似。

应用的客户端连接

应用恢复后,需要确保客户端能够连接恢复出来的应用。通常情况下,您需要:

  • 如果恢复出的应用服务器IP与原始的一样,DNS服务器也成功恢复,那么只需要客户端与应用有网络连接即可。您可能需要用SSLVPN或者高速通道来确保客户端和云上恢复出的应用有连接,或者恢复出的应用提供公网IP让客户端接入。

  • 应用恢复的时候不要求必须使用原始IP,您也可以修改DNS确保客户端可以连接新的服务。

  • 如果域名和IP都发生变化,您需要修改客户端。

灾备设施规划

根据应用服务器的数量、数据量、RRO/RTO的标准,以及所依赖环境设施的要求,您可以合理规划灾备设施。灾备设施主要包括混合云灾备一体机和网络。

混合云灾备一体机

根据需要保护的服务器数量和总的数据量、RTO/RPO要求,您可以选择一款合适的灾备一体机。可选择的一体机型号如下所示:

型号 支持服务器数量 支持的源数据量 备份恢复吞吐
HDR1000 <20 <10 TB 0.5 TB/小时
HDR2000 20~100 20 TB~100 TB 1 TB

网络

灾备设施要求的网络包括以下两种:

  • 数据中心到阿里云之间的网络

    • 由于优化的数据存储传输算法,混合云容灾服务并不强制需要本地数据中心与阿里云建立专线链接。但是对于大数据量、严格RPO要求的场景,建议您利用专线连接,以确保容灾服务能够达到要求的指标。

    • 根据应用恢复后,客户端、AD、DNS等与阿里云VPC的连接需求,您可能需要考虑SSLVPN/高速通道链接或者应用暴露公网IP等方式来确保应用可以被正常使用。

  • 混合云灾备一体机到被保护服务器之间的网络

    • 为了对被保护服务器进行正常备份恢复,需要灾备一体机和被保护服务器有网络连接。

    • 备份一体机提供了双千兆/双万兆网卡供选择,您可以根据备份恢复吞吐要求按需配置。

本文导读目录