本文将为您介绍如何通过数据集成向导模式进行任务配置。

任务配置的操作步骤如下所示:

  1. 新建数据源。
  2. 新建数据同步节点。
  3. 选择数据来源。
  4. 选择数据去向。
  5. 配置字段的映射关系。
  6. 配置作业速率上限、脏数据检查规则等信息。
  7. 配置调度属性。
说明 下文将为您介绍操作步骤的具体实现,以下每个步骤都会跳转到对应的指导文档中。请在完成当前步骤后,单击链接回到本文,继续下一步操作。

新建数据源

同步任务支持多种同构、异构数据源间的数据传输。首先,将需要同步的数据源在数据集成中完成注册。注册完成后,在数据集成配置同步任务时,可以直接选择数据源。数据集成支持同步的数据源类型请参见支持的数据源

确认需要同步的数据源已经被数据集成支持后,可以开始在数据集成中注册数据源。详细的数据源注册步骤请参见配置数据源信息

说明
  • 有部分数据源数据集成不支持测试连通性,数据源测试连通性的支持详情请参见数据源测试连通性
  • 很多时候,数据源都是创建在本地,没有公网IP或网络无法直达。在这种情况下,配置数据源的时候测试连通性会直接失败,数据集成支持新增任务资源来解决这种网络不可达的情况。但在新建同步任务的时候只能选择脚本模式(因为网络不可直达,在向导模式中就无法获取表结构等信息)。

新建数据同步节点

说明 本文主要为您介绍向导模式下的同步任务配置,在数据集成中新建同步任务时请选择向导模式
  1. 以开发者身份进入DataWorks管理控制台,单击对应工作空间操作栏中的进入数据开发
  2. 进入DataStudio(数据开发)页面,选择新建 > 业务流程
    业务流程
  3. 新建业务流程对话框中,填写业务流程名称描述,单击新建
  4. 展开业务流程,右键单击数据集成,选择新建数据集成节点 > 数据同步,输入节点名称,单击提交
    提交

选择数据来源

新建数据同步节点后,首先需要配置数据同步节点的读取端数据源,以及需要同步的表等信息。
选择数据来源
说明
  • 选择读取端的数据源时,请参见配置Reader
  • 很多任务在配置读取端数据源时,需要进行数据增量同步。此时可以结合DataWorks提供的参数配置来获取相对日期,以完成获取增量数据的需求。

选择数据去向

配置完成读取端数据源信息后,可以配置右侧的写入端数据源,以及需要写入的表信息等。

说明
  • 选择写入端的数据源时,请参见配置Writer
  • 很多任务在写入时,需要选择写入模式。比如覆盖写入还是追加写入,针对不同的数据源,有不同的写入模式。

配置字段的映射关系

选择好数据来源和数据去向后,需要指定读取端和写入端列的映射关系,可以选择同名映射同行映射取消映射自动排版
字段映射
配置 说明
同名映射 单击同名映射,可以根据名称建立相应的映射关系,请注意匹配数据类型。
同行映射 单击同行映射,可以在同行建立相应的映射关系,请注意匹配数据类型。
取消映射 单击取消映射,可以取消建立的映射关系。
自动排版 可以根据相应的规律自动排版。
手动编辑源表字段 请手动编辑字段,一行表示一个字段,首尾空行会被采用,其他空行会被忽略。
添加一行
  • 可以输入常量,输入的值需要使用英文单引号,如'abc''123'等。
  • 可以配合调度参数使用,如${bizdate}等。
  • 可以输入关系数据库支持的函数,如now()count(1)等。
  • 如果您输入的值无法解析,则类型显示为未识别。
说明 请注意列与列之间映射的字段类型是否数据兼容。

配置通道控制

配置完成上述操作后,需要进行通道控制。
通道控制
配置 说明
任务期望最大并发数 数据同步任务内,可以从源并行读取或并行写入数据存储端的最大线程数。向导模式通过界面化配置并发数,指定任务所使用的并行度。
同步速率 设置同步速率可以保护读取端数据库,以避免抽取速度过大,给源库造成太大的压力。同步速率建议限流,结合源库的配置,请合理配置抽取速率。
错误记录数 错误记录数,表示脏数据的最大容忍条数。
任务资源组 任务运行的机器,如果任务数比较多,使用默认资源组出现等待资源的情况,建议购买独享数据集成资源或添加自定义资源组,详情请参见DataWorks独享资源新增任务资源

配置调度属性

数据同步节点中,经常需要使用调度参数进行数据过滤,下文将为您介绍如何在同步任务中配置调度参数。

进入数据同步节点编辑界面,单击右侧的调度配置
调度配置

您可以通过${变量名}的方式声明调度参数变量。当变量声明完成后,在调度的参数属性中写上变量的初始化值,此处变量初始化的值以$[]为标识,其中的内容可以填时间表达式或者一个常量。

例如在代码中写了${today},在调度参数中赋值today=$[yyyymmdd],则可获取到当天的日期。如果需要对日期进行加减操作,请参见参数配置

您可以设置数据同步节点的运行周期、运行时间和调度依赖等属性。由于数据同步节点是ETL工作的开始,所以没有上游节点,此时建议使用工作空间根节点作为上游。

在同步任务中使用自定义调度参数

在同步任务中只需要在代码中声明如下参数即可。
  • bizdate:获取到业务日期,运行日期-1。
  • cyctime:获取到当前运行时间,格式为yyyymmddhhmiss。
  • Dataworks提供了两个系统默认调度参数bizdate和cyctime 。

完成数据同步节点的配置后,请保存并提交节点。