DataWorks数据集成支持复杂网络环境下的数据同步,您可在数据开发(DataStudio)界面直接创建离线同步节点,用于离线(批量)数据周期性同步;实时同步任务运维,用于单表或整库增量数据实时同步。本文为您介绍数据同步的相关内容。
背景信息
除数据开发(DataStudio)的数据同步节点外,数据集成模块还支持多种类型同步方案,例如,全增量数据实时同步,整库离线同步等。数据集成模块与同步解决方案的更多介绍,详情请参见支持的数据源及同步方案。
使用限制
您需要拥有开发角色权限,才可以在数据开发(DataStudio)界面创建同步任务。授权详情,请参见添加空间成员并管理成员角色权限。
离线同步任务
- 场景介绍
离线数据同步支持源端单表同步至目标端单表、源端分库分表同步至目标端单表两类同步场景。同时,结合DataWorks调度参数,可实现增量数据和全量数据周期性写入目标表的对应分区;再配合运维中心的补数据功能,可实现基于一套完整的任务配置,批量将历史数据同步至目标数据库或数据仓库指定表或指定分区。
- 数据源支持情况
数据集成目前支持40种以上的数据源类型(包括关系型数据库、非结构化存储、大数据存储、消息队列等),通过定义来源与去向数据源,并使用数据集成提供的数据抽取插件(Reader)、数据写入插件(Writer),实现任意结构化、半结构化数据源之间的数据传输。
- 功能介绍
功能描述 相关文档 数据集成离线同步,通过读取插件与写入插件实现数据的读取与写入,并且支持在DataWorks新建数据源,通过数据源名称决定同步数据的来源与去向。 在DataWorks新建数据源后,可通过向导模式进行数据同步。 通过向导模式配置离线同步任务 以下场景需使用脚本模式配置同步任务: - 无法通过DataWorks数据集成新建的数据源。
- 数据源本身不支持使用向导模式配置任务。
- 部分插件的参数仅支持使用脚本模式配置任务。
通过脚本模式配置离线同步任务
实时同步任务
实时同步支持将多种数据源进行星型链路组合,您可将多种输入及输出数据源搭配,组成多种同步链路进行数据同步。数据集成通过配置输入输出,可实现单表数据同步至目标单表,以及整库数据同步,详情请参见实时同步支持的数据源、实时同步能力说明。
同步任务调度配置
节点依赖关系
- 离线同步任务
- 离线同步任务的上游任务:由于同步任务可依赖平台侧血缘,因此,您可根据工作空间业务复杂性,选择挂载依赖至工作空间根节点或虚拟节点,即由工作空间根节点调度当前节点执行,还是由虚拟节点直接调度当前节点执行。
- 离线同步任务的下游任务:为保障下游SQL任务对表数据进行加工时,可正常通过自动解析挂载该同步任务节点依赖,建议将同步任务产出的表添加为同步节点的输出,格式为
projectname.tablename
。
- 实时同步任务的下游任务由于DataWorks仅支持为周期调度节点产出的表设置依赖,因此,当下游任务需对实时同步产出的表数据进行加工(即下游任务的上游依赖为实时同步任务),无法基于血缘关系设置依赖。您可根据工作空间业务复杂性,选择挂载依赖至工作空间根节点或虚拟节点,即由工作空间根节点调度当前节点执行,还是由虚拟节点直接调度当前节点执行。说明 为保障实时同步任务数据顺利产出,您可针对实时同步任务设置监控报警。
节点调度参数配置
离线同步任务自带
${bizdate}
格式的变量名,该变量自动被授予系统内置参数$bizdate
。- 调度参数在数据集成的使用原理,详情请参见数据集成使用调度参数的相关说明。
- 调度参数在数据集成的应用场景,详情请参见场景:调度参数在数据集成的典型应用场景。