文档

DataX

更新时间:

DataX任务类型,用于执行DataX程序。本文为您介绍创建DataX类型任务时涉及的参数。

参数说明

参数

说明

节点名称

任务的名称。一个工作流定义中的节点名称是唯一的。

运行标志

  • 正常(默认):运行工作流时执行该任务。

  • 禁止执行:运行工作流不会执行该任务。

描述

节点的描述。

任务优先级

流程运行的优先级。支持以下级别:

  • HIGHEST:最高。

  • HIGH:高。

  • MEDIUM(默认):中。

  • LOW:低。

  • LOWEST:最低。

失败重试次数

工作流运行失败自动重试的次数。

失败重试间隔

每次失败重试的间隔。单位:分。

延时执行时间

延时执行时间,默认为0,即立即执行,设置了该值后才执行延时操作。单位:分。

超时告警

该开关默认关闭。打开超时告警开关,勾选超时告警超时失败,当任务超过超时时长后,会发送告警邮件并且任务执行失败。

调度队列

指定作业提交的YARN队列。

任务执行容器内存(MB)

指定作业执行容器的内存。默认值为1024。

虚拟核数

指定作业执行容器的虚拟核数(vCores)。

优先级

指定作业执行容器的优先级(0~100)。数值越大,优先级越高。

执行用户

默认执行用户为dolphinscheduler。标准集群(非高安全集群),如果需要设置执行用户,请确保YARN服务包含如下配置项:

  • yarn.nodemanager.container-executor.class=org.apache.hadoop.yarn.server.nodemanager.LinuxContainerExecutor

  • yarn.nodemanager.linux-container-executor.nonsecure-mode.limit-users=false

自定义DATAX作业配置(JSON)

启用该参数后,还需配置DATAX作业配置(JSON),编写JSON格式的配置文件。

数据源类型

选择抽取数据的数据源类型。

数据源实例

选择在数据源中心中创建的数据源。

数据源筛选SQL

从数据源中抽取数据的SQL语句。当节点执行SQL时会自动解析SQL查询的列名,并将其映射为目标表的同步列名。当源表和目标表的列名不一致时,可以通过使用列别名(AS)来进行转换。

目标源类型

选择同步数据的数据源类型。

目标源实例

选择在数据源中心中创建的目标数据源,以同步数据。

目标表

选择同步数据的表。

目标库前置SQL(preSql)

SQL语句执行前,执行前置SQL。

目标库后置SQL(postSql)

SQL语句执行完成后,执行后置SQL。

限流(字节数)

限制查询结果返回的字节数量。

限流(记录数)

限制查询结果返回的记录数量。

自定义参数

任务自定义参数,会替换脚本中${变量}的内容。

前置任务

设置当前任务的前置(上游)任务。

  • 本页导读 (1)
文档反馈