全部产品
存储与CDN 数据库 安全 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 开发者工具 解决方案 物联网 钉钉智能硬件

灾备规划和环境准备

更新时间:2017-12-07 16:26:28

关键应用的保护数据和业务连续性需求分析

数据保护和业务连续性对现在数据中心意义重大。关键应用的宕机可能对您的业务造成重大损失,而关键应用的数据丢失甚至可能是致命的。

混合云容灾服务提供了三个层次的能力来保护数据和确保业务连续性

  1. 本地备份:当生产环境当将混合云灾备一体机可以按照预设策略将服务器整机镜像和文件备份至本地,并在需要时恢复至虚拟化平台和物理平台(物理平台仅支持文件级恢复)。
  2. 异地备份:服务器镜像和数据备份后会直接上传至阿里云OSS,由OSS提供10个9的数据持久性保障。稳定的异地备份保障关键数据在本地数据中心发生火灾等极端情况下不丢失,在本地设施修复后恢复至本地。
  3. 云上容灾:为减少因应用宕机导致的业务损失,在数据中心出现严重故障无法快速恢复的情况下,混合云容灾服务可以基于您的服务器镜像备份和数据备份,高效地在阿里云ECS上快速恢复您的应用。

针对不同应用,您可以综合使用上述三种能力,保障数据安全,提高业务连续性。

RTO/RPO要求

应用容灾有两个核心的指标

  1. RPO: 指应用发生故障时可以容忍的数据丢失量。数据越关键,RPO就要求越小。RPO越高,往往要求数据备份/复制频率更高,对生产环境,网络的压力也会越大,成本通常也越高。
  2. RTO: 故障发生后,期望的从启动容灾恢复操作到应用恢复上线所需要的时间。宕机单位时间内对业务造成的损失越大,RTO就要求越短。RTO越短,意味着

RTO,RPO往往是由业务部门提出要求,与IT部门共同商议,基于技术可行性,对现有系统影响,成本等多方面综合考量综合得出。RTO,RPO标准的高低与基础设施负责读和实施成本往往有线性关系。

另外,国家或行业标准可能也是您指定RTO,RPO目标的较好参照。GB/T 20988-2007是中国国家标准化管理委员会制定的信息系统灾难恢复规范。其中在附录中给出一个一个某行业RPO/RTO的等级规范示例。

RPO/RTO等级规范示例
数据来源: GB/T 20988-2007标准

混合云容灾服务提供了简单的配置来满足不同的RPO和RTO要求。

  1. 备份计划中可以配置全备,增量备份时间和频率,提供丰富的RPO选择
  2. 公测阶段,云上容灾恢复网关提供了两种模式满足不同的RTO要求
    1. 全冷模式:容灾恢复网关只在需要做容灾恢复时才部署,开机。这样在云上恢复应用时,需要等待恢复网关开机,并将备份数据整理后恢复。这样RTO较长,但平时仅需要支付阿里云OSS存储费用。
    2. 暖模式:容灾恢复网关保持开机,并将遇上备份数据实时整理,预备恢复。当云下故障发生时,马上可以启动容灾恢复流程,缩短应用恢复时间,单个服务器最短可以在30分钟内恢复完成。

关键应用的部署,服务器,和应用配置项

应用容灾是一个需要多部门合作完成的过程。应用管理员,机房管理员,网络管理员往往需要一起配合完成应用容灾的实施。一个能够满足业务要求的完整的灾备方案需要考虑多个方面的细节,主要有

  1. 应用的部署,需要保护的服务器以及各个服务器的配置项
  2. 应用所依赖的环境,比如Active Directory,DNS等
  3. 应用所需要网络配置

服务的部署,服务器,和应用配置项

容灾的第一步首先要了解关键应用是如何部署的,主要元素是

  1. 该应用包含哪些服务器
  2. 服务器之间的网络连接
  3. 服务器内需要做哪些配置

比如一个简单的网页应用包含以下元素

  1. 应用有3个服务器:1个数据库服务器,1个后端服务器,1个Web前端服务器
  2. 这3个服务器处于同一网络
  3. 后端服务器内有一个配置项指定数据库服务器IP。Web前端服务器有个配置项指明后端服务器IP。

识别这些要素之后,咱们就可以做如下计划

  1. 混合云容灾服务需要保护着3台服务器
  2. 阿里云上恢复是需要将这3台服务器恢复在同一个VPC里面
  3. 整机恢复后,要么确保恢复时用用与云下相同的IP,要么在恢复完成后用自动化脚本修改配置项,确保这个应用能够运行起来。

环境和网络依赖

很多情况下应用的运行还有一些重要的环境依赖。比如在Windows环境中,很多应用都依赖Active Directory运行。那么在云上恢复的时候,您云上的VPC环境里能够连接AD服务。DNS服务也是在很多环境下的强需求。

以AD为例,通常会有两种情况

  1. 如果您的AD已经在不同的数据中心内部署了多个主从,几乎不可能所有AD都挂掉,那么您只需要在AD所在的数据中心和云上VPC之间能够建立高速通道或者SSLVPN链接即可。
  2. 如果您的AD是集中部署在一个数据中心可能同一时间离线的,那么您可以
    1. 用混合云灾备一体机保护AD服务器,云下发生故障时首先恢复这台AD服务器
    2. 在云上VPC里做一个从AD服务器,与云下的AD主服务器保持连接。云下发生故障时,使用云上AD。

DNS服务器的做法也跟AD类似。

应用的客户端连接

应用恢复后,需要确保客户端能够连接恢复出来的应用。通常情况下,您需要

  1. 如果恢复出的应用服务器IP与原始的一样,DNS服务器也成功恢复,那么只需要客户端与应用有网络连接就可以。您可能需要用SSLVPN或者高速通道确保客户端和云上恢复出的应用有连接,或者恢复出的应用提供公网IP让客户端接入。
  2. 应用恢复的时候使用原始IP也不是必需的,您也可以修改DNS确保客户端可以连接新的服务
  3. 如果域名和IP都发生变化,您可能需要修改客户端。

灾备设施规划

根据应用服务器的数量,数据量,RRO/RTO的标准,所依赖环境设施的要求,您就可以合理规划灾备设施了。灾备设施主要包括

混合云灾备一体机

根据需要保护的服务器数量和总的数据量,RTO/RPO要求,您可以选择一款适合您的灾备一体机。目前我们提供了两个型号的一体机供您选择

型号 支持服务器数量 支持的源数据量 备份恢复吞吐
HDR1000 <20 <10TB 0.5TB/小时
HDR2000 20 - 100 20 - 100TB 1TB

网络

  1. 数据中心到阿里云之间的网络
    1. 由于优化的数据存储传输算法,混合云容灾服务并不强制需要本地数据中心与阿里云建立专线链接。但是对于大数据量,严格RPO要求的场景,还是建议用户利用专线连接确保容灾服务能够达到要求的指标。
    2. 根据应用恢复后,客户端,AD, DNS等与阿里云VPC的连接需求,您可能需要考虑SSLVPN/高速通道链接或者应用暴露公网IP等方式确保应用可以被正常使用。
  2. 混合云灾备一体机到被保护服务器之间的网络
    1. 为对被保护服务器进行正常备份恢复,需要灾备一体机和被保护服务器有网络连接
    2. 备份一体机提供了双千兆/双万兆网卡供选择,您可以根据备份恢复吞吐要求按需配置。
本文导读目录