数据传输作业:数据集成

更新时间: 2023-02-28 10:50:22

MaxCompute支持通过DataWorks数据集成功能将其他数据源数据同步至MaxCompute,数据集成作业主要有三种类型:离线同步、实时同步、同步解决方案。本文为您介绍MaxCompute数据集成的实现方案。

离线同步

离线(批量)的数据通道通过定义数据来源和去向的数据源和数据集,提供一套抽象化的数据抽取插件(Reader)、数据写入插件(Writer),并基于此框架设计一套简化版的中间数据传输格式,从而实现任意结构化、半结构化数据源之间数据传输至MaxCompute。

image

实时同步

DataWorks提供的实时数据同步功能,使用单表或整库同步方式,将源端数据库中部分或全部表的数据变化实时同步至MaxCompute中,实现MaxCompute实时保持和源库的数据对应。一个实时同步任务支持多个转换插件进行数据清洗,并支持多个写入插件实现多路输出功能。实时同步支持单表实时增量数据同步至MaxCompute单表、分库分表实时增量数据同步至MaxCompute单表、整库(多表)实时增量数据同步至MaxCompute多表。

同步解决方案

实际业务场景下,数据同步通常不能通过一个或多个简单离线同步或者实时同步任务完成,而是由多个离线同步、实时同步和数据处理等任务组合完成,这就会导致数据同步场景下的配置复杂度非常高。

阿里云首页 云原生大数据计算服务 MaxCompute 相关技术圈