离线同步能力说明
数据集成的离线同步功能为您提供数据读取(Reader)和写入插件(Writer),方便您通过定义来源与去向数据源,并结合DataWorks调度参数使用,将源端数据库中全量或增量数据的同步至目标数据库中。本文为您介绍离线同步的相关能力。
核心能力
离线同步支持的能力如下图所示:
能力 | 描述 |
异构数据源间的数据同步 | 数据集成目前支持50+数据源类型,包括关系型数据库、非结构化存储、大数据存储、消息队列间的数据同步。您可以通过定义来源与去向数据源,并通过数据集成提供的数据抽取插件(Reader)、数据写入插件(Writer),实现任意结构化、半结构化数据源之间数据传输。详情请参见:支持的数据源及同步方案。 |
复杂网络环境下的数据同步 | 离线同步支持阿里云云数据库,本地IDC、ECS自建数据库或非阿里云数据库等环境下的数据同步。配置前需确保资源组与源端/目的端的网络连通性,配置详情请参见:网络连通方案。 |
同步场景 | 1. 支持的同步模式
说明 调度参数说明参见:调度参数在数据集成的典型应用场景、调度参数支持的格式。 2. 支持的源端结构
|
配置方式 | 您可以通过以下方式配置数据集成离线同步任务。
说明 任务配置相关能力说明请参见:功能概述。 |
离线同步任务运维 |
功能概述
功能 | 说明 |
全量或增量数据同步 | 离线同步任务可以通过配置数据过滤并结合调度参数,实现数据的全量或增量同步。不同插件增量同步配置方式不同,关于增量数据同步配置详情请参见:场景:配置增量数据离线同步任务。 |
字段映射 | 通过建立字段间映射规则,源端数据将按指定关系写入目标端对应字段。配置时需确保两端字段类型兼容。
|
作业速率上限控制 |
|
分布式执行任务 | 支持分布式执行的数据源可通过任务切片技术,将同步任务分发至多节点并发执行,实现同步速度随集群规模线性提升,突破单机性能瓶颈。该模式尤其适用于高吞吐、低延迟的同步场景,同时能高效调度集群闲置资源,显著提升硬件利用率。 |
脏数据策略 | 脏数据指数据写入目标端时因异常(如类型冲突、约束违反)导致失败的数据记录。离线同步支持定义脏数据策略,可定义脏数据容忍条数及对任务的影响。
|
时区 | 若源端和目的端需进行跨时区同步,可以通过设置源端时区来进行时区转换。 |
后续步骤
创建任务详细说明参见: