本文将为您介绍如何通过数据集成向导模式进行任务配置。

开发流程

  1. 新建数据源。
  2. 新建离线同步节点。
  3. 选择数据来源。
  4. 选择数据去向。
  5. 配置字段的映射关系。
  6. 配置作业速率上限、脏数据检查规则等信息。
  7. 配置调度属性。

新建数据源

同步任务支持多种同构、异构数据源间的数据传输。首先,在工作空间管理 > 数据源页面,新增需要同步的数据源,详情请参见配置数据源

新增数据源后,在数据集成配置同步任务时,可以直接进行选择。数据集成支持同步的数据源类型请参见支持的数据源

说明
  • 部分数据源数据集成不支持测试连通性,数据源测试连通性的支持详情请参见数据源测试连通性
  • 在数据源创建在本地,没有公网IP或网络无法直达的情况下,配置数据源时,测试连通性会直接失败。数据集成支持新增自定义资源组来解决网络不可达的情况。但该情况下,因为网络不可直达,在向导模式中无法获取表结构等信息,所以仅支持脚本模式新建同步任务。

新建业务流程

  1. 以开发者身份登录DataWorks控制台,单击相应工作空间后的进入数据开发
  2. 数据开发页面,鼠标悬停至新建图标,单击业务流程
  3. 新建业务流程对话框中,输入业务流程名称描述
  4. 单击新建

新建离线同步节点

  1. 展开业务流程,右键单击数据集成
  2. 单击新建 > 离线同步
  3. 新建节点对话框中,输入节点名称,并选择目标文件夹
  4. 单击提交

选择数据来源

新建离线同步节点后,首先需要配置离线同步节点的读取端数据源,以及需要同步的表等信息。选择数据来源
说明
  • 选择读取端的数据源时,请参见配置Reader模块。
  • 很多任务在配置读取端数据源时,需要进行数据增量同步。此时可以结合DataWorks提供的调度参数来获取相对日期,以完成获取增量数据的需求。

选择数据去向

完成读取端数据源的配置后,可以配置右侧的写入端数据源,以及需要写入的表信息等。
说明
  • 选择写入端的数据源时,请参见配置Writer模块。
  • 很多任务在写入时,需要选择写入模式,例如覆盖写入还是追加写入。针对不同的数据源,有不同的写入模式。

配置字段的映射关系

选择数据来源和数据去向后,需要指定读取端和写入端列的映射关系。您可以选择同名映射同行映射取消映射自动排版字段映射
参数 描述
同名映射 单击同名映射,可以根据名称建立相应的映射关系,请注意匹配数据类型。
同行映射 单击同行映射,可以在同行建立相应的映射关系,请注意匹配数据类型。
取消映射 单击取消映射,可以取消建立的映射关系。
自动排版 可以根据相应的规律自动排版。
手动编辑源表字段 请手动编辑字段,一行表示一个字段,首尾空行会被采用,其他空行会被忽略。
添加一行
  • 可以输入常量,输入的值需要使用英文单引号,例如'abc''123'等。
  • 可以配合调度参数使用,例如${bizdate}等。
  • 可以输入关系数据库支持的函数,例如now()count(1)等。
  • 如果您输入的值无法解析,则类型显示为未识别。
说明 请注意列与列之间映射的字段类型是否数据兼容。

配置通道控制

配置完成上述操作后,需要进行通道控制。通道控制
参数 描述
任务期望最大并发数 离线同步任务内,可以从源并行读取或并行写入数据存储端的最大线程数。向导模式通过界面化配置并发数,指定任务所使用的并行度。
同步速率 设置同步速率可以保护读取端数据库,以避免抽取速度过大,给源库造成太大的压力。同步速率建议限流,结合源库的配置,请合理配置抽取速率。
错误记录数 错误记录数,表示脏数据的最大容忍条数。
任务资源组 任务运行的机器,如果任务数比较多,使用默认资源组出现等待资源的情况,建议购买独享数据集成资源或添加自定义资源组,详情请参见DataWorks独享资源新增自定义资源组

配置调度属性

离线同步节点中,经常需要使用调度参数进行数据过滤,下文将为您介绍如何在同步任务中配置调度参数。

进入离线同步节点的编辑页面,单击右侧的调度配置

您可以通过${变量名}的方式声明调度参数变量。声明变量后,在调度的参数属性中输入变量的初始化值,此处变量初始化的值以$[]标识,其中的内容可以填写时间表达式或者一个常量。

例如,您在代码中输入${today},在调度参数中赋值today=$[yyyymmdd],则可以获取到当天的日期。如果需要对日期进行加减操作,请参见调度参数

您可以设置离线同步节点的运行周期、运行时间和调度依赖等属性。由于离线同步节点是ETL工作的开始,所以没有上游节点,此时建议使用工作空间根节点作为上游。