整库实时同步功能全景解析-大数据开发治理平台 DataWorks-阿里云

备案控制台

输入文档关键字查找

DataWorks数据集成提供了强大的整库实时同步解决方案，旨在帮助您将源数据库中的全部或部分表，以“全量+增量”一体化的方式，低延迟、自动化地复制到目标数据存储中。该功能基于实时计算引擎，能够自动完成数据的首次全量初始化，并无缝切换到对增量变更数据（CDC）的持续捕获，是实现数据库实时上云、构建实时数仓ODS层等场景的一站式解决方案。

使用场景

实时数仓ODS层构建
将线上业务数据库（如MySQL、Oracle）中的数据，实时、完整地同步至Hologres、StarRocks等实时数仓，为后续的大屏展示、即席查询等业务场景提供数据支撑。
数据库实时复制与灾备
在两个数据库实例之间建立实时复制链路，可用于读写分离、构建只读实例或实现同构/异构数据库的实时灾备。
数据实时上云/迁移
将本地IDC的数据库，平滑迁移至云上数据库服务。
构建实时数据湖/数据中台
将多个业务数据库的实时变更数据统一采集到数据湖（OSS、DLF）或数据仓库（MaxCompute、Hologres）中，构建企业统一的实时数据中台。

核心能力

实时整库同步的核心能力如下：

核心能力	功能点	功能说明
异构数据源间的整库同步	-	整库同步支持将本地IDC或其他云平台的数据迁移至MaxCompute、Hologres、Kafka等数仓或数据湖。详情请参见：支持的数据源及同步方案。
复杂网络环境下的数据同步	-	实时同步支持阿里云云数据库，本地IDC、ECS自建数据库或非阿里云数据库等环境下的数据同步。配置前需确保资源组与源端/目的端的网络连通性，配置详情请参见：网络连通配置。
同步场景	全量同步	支持一次性将源端全量数据同步至目标表。
	增量同步	支持将消息队列或CDC日志等流式数据实时捕获写入目标表或指定分区。
	全增量一体	自动全量初始化：任务首次启动时，自动读取源数据库所有表的存量数据并写入目标端。无缝切换至增量：全量阶段完成后，任务自动、不间断地切换至CDC模式，持续捕获源端的增、删、改操作，并以毫秒级的延迟同步至目标端。
任务配置	批量表同步	支持同步整个数据库的所有表，也支持通过勾选或配置过滤规则，精确选择需要同步的部分表。
	自动建表	一次配置即可处理源端数据库中的数百张表，系统将自动在目标端创建表结构，无需手动干预。
	灵活映射	支持自定义目标库/表命名规则；支持自定义源端和目标端的字段类型映射，灵活适应目标端的数据结构模型。
	DDL变更感知（部分链路支持）	当源端表结构发生变更（新建/删除表或列等）时，可配置同步任务采取以下响应策略之一：正常处理：由目标端自动执行相应的表结构变更。告警：不执行变更，仅发送告警通知，等待人工干预。出错：立即停止任务运行，并将状态置为出错。
	DML规则配置	DML消息处理用于在数据写入目标端之前，对源端捕获的变更数据（`Insert`, `Update`, `Delete`）进行精细化的过滤与控制。通过此规则，可定义不同数据变更操作的最终处理策略。
	动态分区	若目标表为分区表，支持根据来源字段或源端事件变更时间进行动态分区。重要注意，分区个数过多会影响同步效率，单日新增分区超过1000个，分区创建失败并终止任务。
任务运维	线上干预	支持断点续传，在任务中断后从指定的时间位点处恢复执行，确保数据同步不丢失；支持重跑，用于数据补全、修复异常或验证逻辑变更，保障数据一致性与业务连续性。
	监控报警	支持业务延迟、任务状态、Failover、DDL通知等监控规则，并支持对触发的规则进行告警。
	资源调优	DataWorks数据集成基于Serverless资源组，提供按任务粒度的弹性伸缩能力。此外，您还可以通过配置分时段弹性策略，为任务在不同时间（如业务高峰与低谷）预设不同的资源规格。

开始使用

创建整库实时同步任务参见：整库实时同步任务配置。

支持的数据源

来源数据源	去向数据源
ApsaraDB For OceanBase MySQL Oracle PolarDB PolarDB-X 2.0	MaxCompute
MySQL Oracle PolarDB	AnalyticDB for MySQL（V3.0）
MySQL	ApsaraDB for OceanBase
MySQL	Data Lake Formation(DLF)
MySQL Oracle PolarDB	DataHub
MySQL PostgreSQL	Doris
MySQL PolarDB	Elasticsearch
ApsaraDB For OceanBase MongoDB MySQL Oracle PolarDB PolarDB-X 2.0 PostgreSQL	Hologres
MySQL Oracle PolarDB	Kafka
MySQL	LogHub
MySQL PolarDB	OSS
MySQL	OSS-HDFS
MySQL PostgreSQL	SelectDB
MySQL Oracle PolarDB	StarRocks

上一篇：配置整库离线同步任务下一篇：整库实时同步任务配置

该文章对您有帮助吗？