数据集成
数据集成是一个稳定高效、弹性伸缩的数据同步平台,致力于提供在复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力。
产品功能和核心价值
DataWorks数据集成的产品能力体现在其连接的广泛性、方案的灵活性、性能的卓越性、开发运维的便捷性以及安全管控的全面性。
广泛的数据生态连接
打破数据孤岛,实现数据汇聚与迁移。
灵活丰富的同步方案
满足从离线到实时、从单表到整库、从全量到增量的同步需求。
离线同步:支持单表/整库/分库分表等多种离线批量同步场景。提供数据过滤、列裁剪和转换逻辑能力,适用于大规模数据的T+1周期性ETL加载。
实时同步:准实时捕获MySQL、Oracle、Hologres等数据源的数据变更,并写入到实时数仓或消息队列中,支撑实时业务决策。
全增量一体化:提供离线整库、实时整库和整库全增量(准实时)等同步方案,首次执行时进行全量数据初始化,后续自动转为增量数据同步,简化了数据首次入仓和后续更新的流程,实现全量迁移、增量捕获及全增量自动衔接的数据接入能力。
弹性伸缩与性能
自适应资源调度,为核心业务提供高稳定性的数据传输保障。
弹性资源:Serverless资源组支持按需弹性伸缩和按量付费,有效应对流量波动。
性能调控:支持并发控制、流量限制、脏数据处理及分布式处理,保障不同负载下的稳定同步。
低代码开发与智能运维
通过可视化配置与流程,降低数据同步的开发复杂度与运维成本。
低代码开发:向导模式提供可视化的配置界面,通过简单的点选即可完成大部分同步任务的配置,无需编写代码;脚本模式支持通过JSON脚本进行高级配置,满足参数化、动态列映射等复杂场景的需求。
全链路运维:离线同步任务可融入DAG工作流,支持调度编排、监控与告警。
全方位的安全管控
集成多层次安全机制,确保数据在流动全周期中的可控性与合规性。
集中管理:统一的数据源管理中心,支持对数据源进行权限管控,支持开发、生产环境隔离。
安全防护:遵循RAM访问控制,支持角色认证和数据脱敏。
流程引导
数据集成在使用时,仅支持在PC端Chrome浏览器69以上版本使用。
数据集成的通用开发流程如下:
配置数据源、准备资源组并打通数据源与资源组之间的网络连通。
根据场景选择离线或实时同步类型开发任务,并根据界面引导完成资源与任务配置。
通过数据预览和试运行调试任务;调试通过后提交发布(离线任务需发布至生产环境)。
进入持续性运维阶段,监控同步状态、设置告警并优化资源,形成闭环管理。
同步方式
方式 | 描述 |
离线 | 基于批量调度机制的数据传输方式,通过周期任务(小时/天级)将源数据全量或增量迁移至目标端。 |
实时 | 通过流式处理引擎实时捕获源端变更数据(CDC日志),实现秒级延迟的数据同步。 |
单表 | 针对单张表的数据传输,支持精细化的字段映射与转换规则及控制配置。 |
整库 | 将源数据库实例内多张表结构及数据一次性迁移至目标端,支持自动建表。可单任务同步多张表,减少任务数量和资源消耗。 |
分库分表 | 将源端多个表结构一致的表写入目标端单表,自动识别分库分表路由规则,合并数据。 |
全量 | 一次性迁移源表所有历史数据,通常用于初始化数仓或数据归档。 |
增量 | 仅同步源端新增或变更的数据(如 |
全增量 | 一次性全量同步历史数据后,自动衔接增量数据的写入。数据集成多种场景的全增量同步。根据数据来源和去向的数据源特性及时效性要求,按需选择使用。
|
基本概念
概念 | 描述 |
数据同步 | 数据同步是指读取源端数据源的数据经过一定的抽取和过滤写入目标端。数据集成专注于可抽象解析为逻辑二维表结构的数据的传输,本身不提供数据流的消费和ETL转换。 数据集成同步仅支持至少一次传输保障机制(at least once),暂不支持精确传输(exactly-once),即传输后数据可能出现重复,只能依赖主键和目标端能力来保证。 |
字段映射 | 字段映射定义了同步任务中源端与目标端数据的读写对应关系。配置时需严格检查两端字段类型的兼容性,避免因类型不匹配引发转换错误,产生脏数据或导致任务失败。常见风险包括:
|
并发数 | 并发数是数据同步任务中,可以从源并行读取或并行写入数据存储端的最大线程数。 |
限速 | 限速是数据集成同步任务可以达到的传输速度限制。 |
脏数据 | 脏数据指无效、格式错误或同步异常的数据。当单条数据写入目标端失败时,该数据即被归类为脏数据(如源端 若因脏数据导致任务失败,已成功写入的数据不会回滚。数据集成采用批量写入机制,批量异常时回滚能力取决于目标端是否支持事务,数据集成本身不提供事务支持。 |
数据源 | 数据源作为DataWorks中连接外部系统的标准化配置单元,通过预置多种异构数据源连接模板(如MaxCompute、MySQL、OSS等),为数据集成任务提供统一的读写端点定义。 |
数据一致性 | 数据集成同步仅支持至少一次传输保障机制(at least once),暂不支持精确传输(exact once),即传输后数据可能出现重复,只能依赖主键和目标端能力来保证。 |
计费说明
数据集成任务的费用主要包括资源组费用、调度费用和公网流量费用。数据集成任务的执行依赖资源组,该部分费用由资源组收取;部分离线/整库离线同步任务涉及调度运行,会收取调度费用;若数据源通过公网传输,还会产生公网流量费用。具体计费细节,请参见数据集成涉及费用。
网络连通
数据源与资源组的网络连通是数据集成任务执行成功的前提,您需确保两者之间的网络连通性,否则任务运行必然失败。
数据集成支持在复杂网络环境下的数据源进行异构数据源间的数据同步,支持以下复杂场景:
跨阿里云账号/Region的数据同步。
混合云及本地IDC环境接入。
公网/VPC/CEN等多网络通道配置。
详细网络配置方案请参考:网络连通方案。
相关文档
后续您可以通过配置数据源,在数据集成或者数据开发中创建同步作业,完成数据的传输和迁移。详情参见: