DataWorks为您提供多种数据源之间进行不同数据同步场景的全增量同步任务,包括实时数据同步、离线全量同步、离线增量同步等同步场景,助力企业数据更高效、更便捷的一键上云。
背景信息
实际业务场景下,数据同步通常不能通过一个或多个简单离线同步或者实时同步任务完成,而是由多个离线同步、实时同步和数据处理等任务组合完成,这就会导致数据同步场景下的配置复杂度非常高。
为了解决上述问题,DataWorks提出了面向业务场景的同步任务配置化方案,支持不同数据源的一键同步功能,例如,“一键实时同步至Elasticsearch”、“一键实时同步至Hologres”和“一键实时同步至MaxCompute”功能等,通过此类功能,您只需要进行简单的配置,就可以完成一个复杂业务场景。
以业务数据库数据同步到MaxCompute数据仓库为例,当有大量的数据存储在数据库系统里,需要将数据库中的全量及增量数据同步到MaxCompute进行数仓分析时,数据集成传统方式是通过全量同步或者依赖数据库表中的modify_time等字段进行增量同步。但实际生产场景下,数据库表中不一定存在modify_time等字段,因此不能使用传统的基于JDBC抽取的方式进行增量同步。而“一键实时同步至MaxCompute”功能实现了数据库全增量实时同步到MaxCompute以及在MaxCompute上进行自动的全增量合并,可以使整个同步场景化繁为简。
全增量同步任务具有如下优势:
全量数据初始化。
增量数据实时写入。
增量数据和全量数据定时自动合并写入新的全量表分区。
功能概述
全增量同步任务支持的能力如下图所示:
功能 | 描述 |
复杂网络环境下的数据同步 | 支持云数据库、本地IDC、ECS自建数据库或非阿里云数据库等环境下的数据同步。您可以根据数据库所在网络环境,选择合适的全增量同步任务来实现数据源与资源组的网络连通。在配置同步任务前,您需要确保数据集成资源组与您将同步的数据来源端与目标端网络环境已经连通,对应数据库环境与网络连通配置详情请参见:配置资源组与网络连通。 |
数据同步场景 | 全增量同步任务支持单表数据同步至目标端单表、分库分表数据同步至目标端单表、整库(多表)数据同步至目标端多表。 DataWorks为您提供多种类型的全增量同步任务。包括整库离线同步(一次性全量同步、周期性全量同步、离线全增量同步、一次性增量同步、周期性增量同步)、一键实时同步(一次性全量同步,实时增量同步)。详情请参见:支持的数据源及同步方案。 |
全增量同步任务配置 | 全增量同步任务配置时支持的能力如下,详细配置请参见:数据集成侧同步任务配置。任务配置相关能力说明请参见:数据集成侧同步任务配置相关能力。 |
全增量同步任务运维 |
数据集成侧同步任务配置相关能力
支持的能力 | 说明 |
刷新表映射 | 单击刷新源端与目标端表映射按钮后,下方表格会显示刷新后的结果。如上图所示, |
查看或修改单表表结构 | 单击表名列的表名,可以打开可视化建表的配置窗口,支持您根据业务需要,对表进行编辑。 上图示例对自动建表 重要 在自动建表场景下:
上图示例对已有表 重要 在使用已有表场景下:
|
批量修改目标表结构 | 选中多行记录后,单击批量修改目标表结构按钮,可以对选中表进行批量操作。调整完毕后,单击应用并刷新映射按钮进行保存。 重要
您还可以单击 |
自定义目标schema名或表名 | 全增量同步任务默认将源端数据库、数据表写入目标端同名schema或同名表中,如果目标端不存在该schema或表,将会自动创建。同时,支持您定义最终写入目标端的schema或表名称。详情请参见:设置表(库)名的映射规则。 说明
|
为目标字段赋值 | 全增量同步任务默认同名映射,将源端字段写入目标端同名字段中。同时,支持您为目标表新增字段并为字段赋值常量或变量。单击目标表字段赋值列的编辑,弹窗会自动显示出调整后的表结构。
说明 支持的变量解释:
|
定义DDL/DML消息处理策略 | 针对源端DDL类型的消息,您可以在任务配置时,根据业务需要,对不同的DDL消息设置同步至目标端的处理策略。目标端支持的DML与DDL操作详情请参见:支持的DML及DDL操作。 说明
|