数据集成包括离线同步、实时同步和同步解决方案三个功能模块。选择使用哪个功能模块,您需考虑要进行的数据同步是离线还是实时、增量还是全量等,不同模块的支持情况不同,此外还需要重点关注:数据的来源与去向、待同步的表或库的数量等。本文为您概要介绍数据集成各模块的支持情况及核心参考维度。
选择前了解:数据集成各模块能力
数据集成各功能模块对离线与实时、增量与全量、表与库的数量的概要支持情况如下,您可参考下表过滤选择当前数据同步场景下可用的数据集成模块,后续再参考下文的核心参考维度(支持的数据源与读写能力、支持同步的库或表的个数)选择具体的功能模块来配置同步任务。
维度 | 离线同步模块 | 实时同步模块 | 同步解决方案模块(整库离线同步) | 同步解决方案模块(全增量实时同步) | |
---|---|---|---|---|---|
维度1:离线与实时 | 离线 | √ | × | √ | √ |
实时 | × | √ | × | ||
维度2:增量与全量 | 全量 | √ | × | √(一次性全量同步、周期性全量同步、离线全增量同步) | √(一次性全量同步,实时增量同步) |
增量 | √ | √ | √(一次性增量同步、周期性增量同步) | ||
维度3:表与库的数量 | 单表 (单表>单表) | √ | √ | × | √ |
整库 (多表>多表) | × | √ | √ | √ | |
分库分表 (多表>单表)
说明 部分数据源支持分库分表。
|
√ | √ | × | √ | |
维度4:支持的来源与去向数据源 | DataWorks为您提供数据读取(Reader)和写入插件(Writer)实现对数据源的读写操作,支持的数据源详情请参见:支持的数据源与读写插件。 | 支持您将多种输入及输出数据源搭配组成同步链路进行数据同步。支持的数据源详情请参见:实时同步支持的数据源。 | DataWorks为您提供多种数据源之间进行不同数据同步场景的同步解决方案。支持的数据源详情请参见:支持的数据源与读写能力。 | ||
功能介绍文档 | 离线同步能力说明 | 实时同步能力说明 | 同步解决方案能力说明 |
说明
- 实时全增量同步:一次性同步全量数据,然后实时同步增量数据至目标端。
首次将源端单表或多表全量数据写入目标单表或多表某一指定分区,之后增量数据与全量数据合并后实时写入表对应分区中。
- 离线全增量同步:一次性同步全量数据,然后周期性同步增量数据至目标端。
首次将源端多表全量数据全量写入目标单表或多表某一指定分区,之后增量数据周期性写入表对应分区中。
核心参考维度
您可以从以下核心维度选择对应的数据集成模块进行同步任务的配置。
- 支持的数据源与读写能力维度:
进行同步任务配置时,您可以先根据需要同步的来源与去向数据源,及DataWorks各模块对数据源的支持情况,选择对应的功能模块进行同步任务的配置。
说明 在实时同步场景下,你还需要了解写入的目标数据源,对源端DDL和DML操作的支持情况。详情请参见支持的DML及DDL操作。 - 支持同步的库或表个数维度:
您还可以根据源端待同步的库个数、表个数与需要写入目标端的表个数,选择对应的功能模块进行同步任务的配置。
附录:各模块写入表分区说明
- 离线同步
增量数据同步场景下,您可以通过运维中心的补数据功能,将历史数据写入目标表的对应时间分区中。详情请参见:配置增量数据离线同步任务。
- 实时同步:源表增量数据实时写入目标表T-1分区。
- 同步解决方案
同步方案 数据写入说明 离线全增量同步 - 任务配置当天T,源表全量数据一次性写入目标表T-1分区。
- 任务配置第T+N天,源表增量数据周期性写入目标表T+N-1分区。
实时全增量同步 - 任务配置当天T,源表全量数据一次性写入目标表T-1分区,源表增量数据与全量数据合并后实时写入目标表T-1分区。
- 任务配置第T+N天,源表增量数据与全量数据合并后实时写入表T+N-1分区。
说明 一键实时同步至MaxCompute场景下,任务配置当天会将数据写入增量Log表,待第二天再将源表增量数据合并写入全量表中。周期性全量同步 源表全量数据周期性写入目标表T-1分区。 一次性全量同步 任务配置当天T,源表全量数据一次性写入目标表T-1分区。 周期性增量同步 源表增量数据周期性写入目标表T-1分区。 一次性增量同步 任务配置当天T,源表增量数据一次性写入目标表T-1分区。