数据集成

更新时间: 2025-08-28 21:07:36

数据集成是一个稳定高效、弹性伸缩的数据同步平台,致力于提供在复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力。

产品功能和核心价值

DataWorks数据集成的产品能力体现在其连接的广泛性、方案的灵活性、性能的卓越性、开发运维的便捷性以及安全管控的全面性。

广泛的数据生态连接

打破数据孤岛,实现数据汇聚与迁移。
  • 支持丰富的数据源:覆盖关系型数据库、大数据存储、NoSQL数据库、消息队列、文件存储及SaaS应用等多种类型的数据源

  • 复杂网络兼容:通过配置网络连通,支持公网、VPC、高速通道或云企业网(CEN)实现混合云/多云架构下的数据流转。

灵活丰富的同步方案

满足从离线到实时、从单表到整库、从全量到增量的同步需求。
  • 离线同步:支持单表/整库/分库分表等多种离线批量同步场景。提供数据过滤、列裁剪和转换逻辑能力,适用于大规模数据的T+1周期性ETL加载。

  • 实时同步:准实时捕获MySQL、Oracle、Hologres等数据源的数据变更,并写入到实时数仓或消息队列中,支撑实时业务决策。

  • 全增量一体化:提供离线整库、实时整库和整库全增量(准实时)等同步方案,首次执行时进行全量数据初始化,后续自动转为增量数据同步,简化了数据首次入仓和后续更新的流程,实现全量迁移、增量捕获及全增量自动衔接​的数据接入能力。

弹性伸缩与性能

自适应资源调度,为核心业务提供高稳定性的数据传输保障​。
  • 弹性资源Serverless资源组支持按需弹性伸缩和按量付费,有效应对流量波动。

  • 性能调控:支持并发控制、流量限制、脏数据处理及分布式处理,保障不同负载下的稳定同步。

低代码开发与智能运维

通过可视化配置与流程,降低数据同步的开发复杂度与运维成本。
  • 低代码开发:向导模式提供可视化的配置界面,通过简单的点选即可完成大部分同步任务的配置,无需编写代码;脚本模式支持通过JSON脚本进行高级配置,满足参数化、动态列映射等复杂场景的需求。

  • 全链路运维​:离线同步任务可融入DAG工作流,支持调度编排、监控与告警。

全方位的安全管控

集成多层次安全机制,确保数据在流动全周期中的可控性与合规性。
  • 集中管理:统一的数据源管理中心,支持对数据源进行权限管控,支持开发、生产环境隔离。

  • 安全防护:遵循RAM访问控制,支持角色认证和数据脱敏。

流程引导

重要

数据集成在使用时,仅支持在PC端Chrome浏览器69以上版本使用。

image

数据集成的通用开发流程如下:

  1. 配置数据源、准备资源组并打通数据源与资源组之间的网络连通

  2. 根据场景选择离线或实时同步类型开发任务,并根据界面引导完成资源任务配置

  3. 通过数据预览和试运行调试任务;调试通过后提交发布(离线任务需发布至生产环境)。

  4. 进入持续性运维阶段,监控同步状态、设置告警并优化资源,形成闭环管理。

同步方式

方式

描述

离线

基于批量调度机制的数据传输方式,通过周期任务(小时/天级)将源数据全量增量迁移至目标端。

实时

通过流式处理引擎实时捕获源端变更数据(CDC日志),实现秒级延迟的数据同步。

单表

针对单张表的数据传输,支持精细化的字段映射与转换规则及控制配置。

整库

将源数据库实例内多张表结构及数据一次性迁移至目标端,支持自动建表。可单任务同步多张表,减少任务数量和资源消耗。

分库分表

将源端多个表结构一致的表写入目标端单表,自动识别分库分表路由规则,合并数据。

全量

一次性迁移源表所有历史数据,通常用于初始化数仓或数据归档。

增量

仅同步源端新增或变更的数据(如INSERT/UPDATE),数据集成支持离线和实时两种增量模式,分别通过设置数据过滤(增量条件)和读取源端CDC数据实现。

全增量

一次性全量同步历史数据后,自动衔接增量数据的写入。数据集成多种场景的全增量同步。根据数据来源和去向的数据源特性及时效性要求,按需选择使用。

  • 离线场景:一次性全量周期性增量。适用于对数据时效性要求不高,且源端表中有合适的增量字段(如modify_time)类型的数据源。

  • 实时场景:一次性全量实时增量。适用于对数据有比较高的时效性要求,且源端为消息队列或者支持开启CDC日志的数据库。

  • 准实时场景:一次性全量入Base表,实时增量写入Log表,T+1将Log表的数据合并入Base表。准实时场景为实时场景的补充,适用于目标端不支持更新或者删除的表格式类型,如MaxCompute的常规类型表。

基本概念

概念

描述

数据同步

数据同步是指读取源端数据源的数据经过一定的抽取和过滤写入目标端。数据集成专注于可抽象解析为逻辑二维表结构的数据的传输,本身不提供数据流的消费和ETL转换。

数据集成同步仅支持至少一次传输保障机制(at least once),暂不支持精确传输(exactly-once),即传输后数据可能出现重复,只能依赖主键和目标端能力来保证。

字段映射

字段映射定义了同步任务中源端与目标端数据的读写对应关系。配置时需严格检查两端字段类型的兼容性,避免因类型不匹配引发转换错误,产生脏数据或导致任务失败。常见风险包括:

  • 类型转换失败:源端与目标端字段类型不一致(如源端为String而目标端为Integer),将直接导致任务中断或产生脏数据。

  • 精度与范围损失:如果目标端字段类型最大值小于源端最大值(或最小值大于源端最小值,或精度低于源端精度),可能会导致写入失败或精度被截断的风险(不区分源端和目标端类型,也不区分离线还是实时同步)。

并发数

并发数是数据同步任务中,可以从源并行读取或并行写入数据存储端的最大线程数。

限速

限速是数据集成同步任务可以达到的传输速度限制。

脏数据

脏数据指无效、格式错误或同步异常的数据。当单条数据写入目标端失败时,该数据即被归类为脏数据(如源端VARCHAR类型无法转换为目标端INT类型)。可在任务配置中控制脏数据容忍策略:设置阈值限制脏数据条数,超过阈值则任务失败退出。

若因脏数据导致任务失败,​已成功写入的数据不会回滚。数据集成采用批量写入机制,批量异常时回滚能力取决于目标端是否支持事务,数据集成本身不提供事务支持

数据源

数据源作为DataWorks中连接外部系统的标准化配置单元,通过预置多种异构数据源连接模板​(如MaxCompute、MySQL、OSS等),为数据集成任务提供统一的读写端点定义。

数据一致性

数据集成同步仅支持至少一次传输保障机制(at least once),暂不支持精确传输(exact once),即传输后数据可能出现重复,只能依赖主键和目标端能力来保证。

计费说明

数据集成任务的费用主要包括资源组费用调度费用公网流量费用。数据集成任务的执行依赖资源组,该部分费用由资源组收取;部分离线/整库离线同步任务涉及调度运行,会收取调度费用;若数据源通过公网传输,还会产生公网流量费用。具体计费细节,请参见数据集成涉及费用

网络连通

数据源与资源组的网络连通是数据集成任务执行成功的前提,您需确保两者之间的网络连通性,否则任务运行必然失败。

image

数据集成支持在复杂网络环境下的数据源进行异构数据源间的数据同步,支持以下复杂场景:

  • 跨阿里云账号/Region的数据同步。

  • 混合云及本地IDC环境接入。

  • 公网/VPC/CEN等多网络通道配置。

详细网络配置方案请参考:网络连通方案

相关文档

后续您可以通过配置数据源,在数据集成或者数据开发中创建同步作业,完成数据的传输和迁移。详情参见:

上一篇: 查看和设置报警联系人 下一篇: 支持的数据源及同步方案
阿里云首页 大数据开发治理平台 DataWorks 相关技术圈