DataWorks数据集成支持复杂网络环境下的数据同步,您可在数据开发(DataStudio)界面直接创建离线同步节点,用于离线(批量)数据周期性同步;实时同步任务运维,用于单表或整库增量数据实时同步。本文为您介绍数据同步的相关内容。

背景信息

除数据开发(DataStudio)的数据同步节点外,数据集成模块还支持多种类型同步方案,例如,全增量数据实时同步,整库离线同步等。数据集成模块与同步解决方案的更多介绍,详情请参见支持的数据源及同步方案

使用限制

您需要拥有开发角色权限,才可以在数据开发(DataStudio)界面创建同步任务。授权详情,请参见添加空间成员并管理成员角色权限

离线同步任务

  • 场景介绍

    离线数据同步支持源端单表同步至目标端单表源端分库分表同步至目标端单表两类同步场景。同时,结合DataWorks调度参数,可实现增量数据和全量数据周期性写入目标表的对应分区;再配合运维中心的补数据功能,可实现基于一套完整的任务配置,批量将历史数据同步至目标数据库或数据仓库指定表或指定分区。

  • 数据源支持情况

    数据集成目前支持40种以上的数据源类型(包括关系型数据库、非结构化存储、大数据存储、消息队列等),通过定义来源与去向数据源,并使用数据集成提供的数据抽取插件(Reader)、数据写入插件(Writer),实现任意结构化、半结构化数据源之间的数据传输。

  • 功能介绍
    功能描述相关文档
    数据集成离线同步,通过读取插件与写入插件实现数据的读取与写入,并且支持在DataWorks新建数据源,通过数据源名称决定同步数据的来源与去向。
    在DataWorks新建数据源后,可通过向导模式进行数据同步。通过向导模式配置离线同步任务
    以下场景需使用脚本模式配置同步任务:
    • 无法通过DataWorks数据集成新建的数据源。
    • 数据源本身不支持使用向导模式配置任务。
    • 部分插件的参数仅支持使用脚本模式配置任务。
    通过脚本模式配置离线同步任务

实时同步任务

实时同步支持将多种数据源进行星型链路组合,您可将多种输入及输出数据源搭配,组成多种同步链路进行数据同步。数据集成通过配置输入输出,可实现单表数据同步至目标单表,以及整库数据同步,详情请参见实时同步支持的数据源实时同步能力说明

同步任务调度配置

节点依赖关系

  • 离线同步任务
    • 离线同步任务的上游任务:由于同步任务可依赖平台侧血缘,因此,您可根据工作空间业务复杂性,选择挂载依赖至工作空间根节点虚拟节点,即由工作空间根节点调度当前节点执行,还是由虚拟节点直接调度当前节点执行。
    • 离线同步任务的下游任务:为保障下游SQL任务对表数据进行加工时,可正常通过自动解析挂载该同步任务节点依赖,建议将同步任务产出的表添加为同步节点的输出,格式为projectname.tablename
  • 实时同步任务的下游任务
    由于DataWorks仅支持为周期调度节点产出的表设置依赖,因此,当下游任务需对实时同步产出的表数据进行加工(即下游任务的上游依赖为实时同步任务),无法基于血缘关系设置依赖。您可根据工作空间业务复杂性,选择挂载依赖至工作空间根节点虚拟节点,即由工作空间根节点调度当前节点执行,还是由虚拟节点直接调度当前节点执行。
    说明 为保障实时同步任务数据顺利产出,您可针对实时同步任务设置监控报警

节点调度参数配置

离线同步任务自带${bizdate}格式的变量名,该变量自动被授予系统内置参数$bizdate