MaxCompute支持通过DataWorks数据集成功能将其他数据源数据同步至MaxCompute,数据集成作业主要有三种类型:离线同步、实时同步、同步解决方案。本文为您介绍MaxCompute数据集成的实现方案。
离线同步
离线(批量)的数据通道通过定义数据来源和去向的数据源和数据集,提供一套抽象化的数据抽取插件(Reader)、数据写入插件(Writer),并基于此框架设计一套简化版的中间数据传输格式,从而实现任意结构化、半结构化数据源之间数据传输至MaxCompute。
配置离线同步任务请参见通过向导模式配置离线同步任务、通过脚本模式配置离线同步任务。
注意事项
离线同步仅支持单表或分库分表数据离线同步至MaxCompute单表。
在数据集成同步任务配置前您需要在DataWorks数据源管理页面创建MaxCompute数据源,详情请参见配置MaxCompute数据源。
在配置同步任务前,您需要确保数据集成资源组与您将同步的数据源网络环境已经连通,详情请参见配置资源组与网络连通。
实时同步
DataWorks提供的实时数据同步功能,使用单表或整库同步方式,将源端数据库中部分或全部表的数据变化实时同步至MaxCompute中,实现MaxCompute实时保持和源库的数据对应。一个实时同步任务支持多个转换插件进行数据清洗,并支持多个写入插件实现多路输出功能。实时同步支持单表实时增量数据同步至MaxCompute单表、分库分表实时增量数据同步至MaxCompute单表、整库(多表)实时增量数据同步至MaxCompute多表。
配置实时同步任务请参见配置单表增量数据实时同步、DataStudio侧实时同步。
注意事项
在数据集成同步任务配置前您需要在DataWorks数据源管理页面创建MaxCompute数据源,详情请参见配置MaxCompute数据源。
购买合适规格的独享数据集成资源组,详情请参见新增和使用独享数据集成资源组。
说明MaxCompute独享数据集成资源组任务的并发值无最佳值,您需要根据实例数据量与期望同步时间设置,如果期望缩减同步时间可以购买最大并发线程数大的规格,单任务建议需要的资源规格请参见性能指标。
在配置同步任务前您需要确保数据集成资源组与您将同步的数据源网络环境已经连通,详情请参见配置资源组与网络连通。
在实时同步任务执行前您需要配置MaxCompute数据源环境,详情请参见MaxCompute环境准备。
同步解决方案
实际业务场景下,数据同步通常不能通过一个或多个简单离线同步或者实时同步任务完成,而是由多个离线同步、实时同步和数据处理等任务组合完成,这就会导致数据同步场景下的配置复杂度非常高。
为了解决上述问题,DataWorks提出了面向业务场景的同步任务配置化方案,支持同步至MaxCompute的一键同步功能:一键实时同步至MaxCompute、整库离线同步至MaxCompute。
注意事项
在数据集成同步任务配置前您需要在DataWorks数据源管理页面创建MaxCompute数据源,详情请参见配置MaxCompute数据源。
购买合适规格的独享数据集成资源组,详情请参见新增和使用独享数据集成资源组。
说明MaxCompute独享数据集成资源组任务的并发值无最佳值,您需要根据实例数据量与期望同步时间设置,如果期望缩减同步时间可以购买最大并发线程数大的规格,单任务建议需要的资源规格请参见性能指标。
在配置同步任务前您需要确保数据集成资源组与您将同步的数据源网络环境已经连通,详情请参见配置资源组与网络连通。
在实时同步任务执行前您需要配置MaxCompute数据源环境,详情请参见MaxCompute环境准备。