整库实时同步任务能力说明

DataWorks数据集成提供了强大的整库实时同步解决方案,旨在帮助您将源数据库中的全部或部分表,以“全量+增量”一体化的方式,低延迟、自动化地复制到目标数据存储中。该功能基于实时计算引擎,能够自动完成数据的首次全量初始化,并无缝切换到对增量变更数据(CDC)的持续捕获,是实现数据库实时上云、构建实时数仓ODS层等场景的一站式解决方案。

使用场景

  • 实时数仓ODS层构建

    将线上业务数据库(如MySQL、Oracle)中的数据,实时、完整地同步至Hologres、StarRocks等实时数仓,为后续的大屏展示、即席查询等业务场景提供数据支撑。

  • 数据库实时复制与灾备

    在两个数据库实例之间建立实时复制链路,可用于读写分离、构建只读实例或实现同构/异构数据库的实时灾备。

  • 数据实时上云/迁移

    将本地IDC的数据库,平滑迁移至云上数据库服务。

  • 构建实时数据湖/数据中台

    将多个业务数据库的实时变更数据统一采集到数据湖(OSS、DLF)或数据仓库(MaxCompute、Hologres)中,构建企业统一的实时数据中台。

核心能力

实时整库同步的核心能力如下:

image

核心能力

功能点

功能说明

异构数据源间的整库同步

-

整库同步支持将本地IDC或其他云平台的数据迁移至MaxCompute、Hologres、Kafka等数仓或数据湖。详情请参见:支持的数据源及同步方案

复杂网络环境下的数据同步

-

实时同步支持阿里云云数据库,本地IDC、ECS自建数据库或非阿里云数据库等环境下的数据同步。配置前需确保资源组与源端/目的端的网络连通性,配置详情请参见:网络连通配置

同步场景

全量同步

支持一次性将源端全量数据同步至目标表。

增量同步

支持将消息队列或CDC日志等流式数据实时捕获写入目标表或指定分区。

全增量一体

  • 自动全量初始化:任务首次启动时,自动读取源数据库所有表的存量数据并写入目标端。

  • 无缝切换至增量:全量阶段完成后,任务自动、不间断地切换至CDC模式,持续捕获源端的增、删、改操作,并以毫秒级的延迟同步至目标端。

任务配置

批量表同步

支持同步整个数据库的所有表,也支持通过勾选或配置过滤规则,精确选择需要同步的部分表。

自动建表

一次配置即可处理源端数据库中的数百张表,系统将自动在目标端创建表结构,无需手动干预。

灵活映射

支持自定义目标库/表命名规则;支持自定义源端和目标端的字段类型映射,灵活适应目标端的数据结构模型。

DDL变更感知(部分链路支持)

当源端表结构发生变更(新建/删除表或列等)时,可配置同步任务采取以下响应策略之一:

  • 正常处理:由目标端自动执行相应的表结构变更。

  • 告警:不执行变更,仅发送告警通知,等待人工干预。

  • 出错:立即停止任务运行,并将状态置为出错。

DML规则配置

DML消息处理用于在数据写入目标端之前,对源端捕获的变更数据(InsertUpdateDelete)进行精细化的过滤与控制。通过此规则,可定义不同数据变更操作的最终处理策略。

动态分区

若目标表为分区表,支持根据来源字段或源端事件变更时间进行动态分区。

重要

注意,分区个数过多会影响同步效率,单日新增分区超过1000个,分区创建失败并终止任务。

任务运维

线上干预

支持断点续传,在任务中断后从指定的时间位点处恢复执行,确保数据同步不丢失;支持重跑,用于数据补全、修复异常或验证逻辑变更,保障数据一致性与业务连续性。

监控报警

支持业务延迟、任务状态、Failover、DDL通知等监控规则,并支持对触发的规则进行告警。

资源调优

DataWorks数据集成基于Serverless资源组,提供按任务粒度的弹性伸缩能力。

此外,您还可以通过配置分时段弹性策略,为任务在不同时间(如业务高峰与低谷)预设不同的资源规格。

开始使用

创建整库实时同步任务参见:整库实时同步任务配置

支持的数据源

来源数据源

去向数据源

MaxCompute

AnalyticDB for MySQL(V3.0)

ApsaraDB for OceanBase

Data Lake Formation(DLF)

DataHub

Doris

Elasticsearch

Hologres

Kafka

LogHub

OSS

OSS-HDFS

SelectDB

StarRocks