DataWorks数据集成提供了强大的整库实时同步解决方案,旨在帮助您将源数据库中的全部或部分表,以“全量+增量”一体化的方式,低延迟、自动化地复制到目标数据存储中。该功能基于实时计算引擎,能够自动完成数据的首次全量初始化,并无缝切换到对增量变更数据(CDC)的持续捕获,是实现数据库实时上云、构建实时数仓ODS层等场景的一站式解决方案。
使用场景
实时数仓ODS层构建
将线上业务数据库(如MySQL、Oracle)中的数据,实时、完整地同步至Hologres、StarRocks等实时数仓,为后续的大屏展示、即席查询等业务场景提供数据支撑。
数据库实时复制与灾备
在两个数据库实例之间建立实时复制链路,可用于读写分离、构建只读实例或实现同构/异构数据库的实时灾备。
数据实时上云/迁移
将本地IDC的数据库,平滑迁移至云上数据库服务。
构建实时数据湖/数据中台
将多个业务数据库的实时变更数据统一采集到数据湖(OSS、DLF)或数据仓库(MaxCompute、Hologres)中,构建企业统一的实时数据中台。
核心能力
实时整库同步的核心能力如下:
核心能力 | 功能点 | 功能说明 |
异构数据源间的整库同步 | - | 整库同步支持将本地IDC或其他云平台的数据迁移至MaxCompute、Hologres、Kafka等数仓或数据湖。详情请参见:支持的数据源及同步方案。 |
复杂网络环境下的数据同步 | - | 实时同步支持阿里云云数据库,本地IDC、ECS自建数据库或非阿里云数据库等环境下的数据同步。配置前需确保资源组与源端/目的端的网络连通性,配置详情请参见:网络连通配置。 |
同步场景 | 全量同步 | 支持一次性将源端全量数据同步至目标表。 |
增量同步 | 支持将消息队列或CDC日志等流式数据实时捕获写入目标表或指定分区。 | |
全增量一体 |
| |
任务配置 | 批量表同步 | 支持同步整个数据库的所有表,也支持通过勾选或配置过滤规则,精确选择需要同步的部分表。 |
自动建表 | 一次配置即可处理源端数据库中的数百张表,系统将自动在目标端创建表结构,无需手动干预。 | |
灵活映射 | 支持自定义目标库/表命名规则;支持自定义源端和目标端的字段类型映射,灵活适应目标端的数据结构模型。 | |
DDL变更感知(部分链路支持) | 当源端表结构发生变更(新建/删除表或列等)时,可配置同步任务采取以下响应策略之一:
| |
DML规则配置 | DML消息处理用于在数据写入目标端之前,对源端捕获的变更数据( | |
动态分区 | 若目标表为分区表,支持根据来源字段或源端事件变更时间进行动态分区。 重要 注意,分区个数过多会影响同步效率,单日新增分区超过1000个,分区创建失败并终止任务。 | |
任务运维 | 线上干预 | 支持断点续传,在任务中断后从指定的时间位点处恢复执行,确保数据同步不丢失;支持重跑,用于数据补全、修复异常或验证逻辑变更,保障数据一致性与业务连续性。 |
监控报警 | 支持业务延迟、任务状态、Failover、DDL通知等监控规则,并支持对触发的规则进行告警。 | |
资源调优 | DataWorks数据集成基于Serverless资源组,提供按任务粒度的弹性伸缩能力。 此外,您还可以通过配置分时段弹性策略,为任务在不同时间(如业务高峰与低谷)预设不同的资源规格。 |
开始使用
创建整库实时同步任务参见:整库实时同步任务配置。
支持的数据源
来源数据源 | 去向数据源 |
MaxCompute | |
AnalyticDB for MySQL(V3.0) | |
ApsaraDB for OceanBase | |
Data Lake Formation(DLF) | |
DataHub | |
Doris | |
Elasticsearch | |
Hologres | |
Kafka | |
LogHub | |
OSS | |
OSS-HDFS | |
SelectDB | |
StarRocks |