混合云大数据容灾(英文 HDR for Big Data, 简称 HDR-BD)是针对 Hadoop 集群的灾备方案。
说明 目前 HDR-BD 正在邀测,您可以到混合云容灾服务控制台中注册,我们会评估后尽早联系您。您也可以联系阿里云 CBM 获取邀测资格。HDR-BD 在邀测阶段不收取服务费用,但您可能需要承担测试产生的 EMR、存储、网络等资源费用。
基于领先的数据双向实时复制技术,HDR-BD 可以实现 Hadoop 集群双活和准 0 RPO 容灾。同时,通过与阿里云对象存储 OSS 的紧密集成,您也可以将集群数据实时备份至阿里云 OSS,实现非常简单高效的数据备份。
技术原理
HDR-BD 的核心原理是 Hadoop 集群间的数据实时双向复制。对于 HDFS 上的文件写操作,通过元数据同步复制和数据异步复制,实现了极低的 RPO,系统轻松实现数据保护和集群双活。一个文件写操作的具体流程如下图所示:
主要优势
HDR-BD 为大数据灾备设立了一个全新的标准,其主要优势包括运维复杂度低、近 0 RPO、高资源利用率等。
- 运维复杂度低
HDR-BD 实现了数据的全自动实时双向复制,无需特定时间窗口,也无需担心对业务的影响
- 近 0 RPO
数据的实时复制决定了每一个写操作都会实时复制到配对集群,RPO 几乎为0。
- 高资源利用率
数据双向复制确保运行在不同应用的两个集群共享一份数据,不要求一个集群必须处于只读或备用状态,计算资源得以充分利用。
核心场景
HDR-BD 的核心场景包括跨集群大数据湖、Hadoop 集群双活容灾、Hadoop 数据实时云备份。
- 跨集群大数据湖
在多个 Hadoop 集群之间建立实时双向复制,使数据在多个集群之间无缝流动,而且可以根据不同集群的角色,制订数据复制规则。每个集群在运行不同任务的同时,又能够聚合、分发、共享数据,形成大数据湖,充分发挥数据的效能。
- Hadoop 集群双活容灾
通过在自建 Hadoop 集群和云上 EMR 集群间,或者在云上 EMR 集群间安装配置 HDR-BD 服务,可以确保两个集群间数据实时双向复制,实现近 0 RPO的大数据集群容灾。两个集群可以各自运行不同的业务,避免资源浪费。所有数据变化都会在两个集群间同步,当一个集群发生重大故障时,您可以在另一个集群启动业务,期间几乎没有数据丢失。
- Hadoop 数据实时云备份
自建 Hadoop 集群可以通过 HDR-BD 服务与阿里云对象存储 OSS 建立实时单向复制。集群上的数据将会以极短的 RPO 复制到 OSS 上。无需配置备份策略、分配备份时间窗口,Hadoop 集群数据即可轻松得到保护。