支持的节点类型

DataWorks的数据开发(DataStudio)模块提供多种节点,包括数据集成节点、引擎计算节点(如ODPS SQL、Hologres SQL、EMR Hive)和通用节点(如虚拟节点、Check节点),以满足您不同的数据处理需求。

数据同步类节点

数据集成节点

使用介绍

节点编码

TaskType

离线同步节点

用于离线(批量)数据周期性同步场景,并且支持复杂场景下多种异构数据源间数据同步。离线同步支持的数据源详情,请参见支持的数据源及同步方案

23

DI2

实时同步节点

用于增量数据实时同步场景。实时同步包括实时读取、转换和写入三种基础插件,各插件之间通过内部定义的中间数据格式进行交互。实时同步支持的数据源详情,请参见支持的数据源及同步方案

900

RI

说明

除在数据开发(DataStudio)界面直接创建的节点外,数据集成主站还支持多种类型同步方案。例如,全增量数据实时同步,整库离线同步等,详情请参见数据集成侧同步任务能力说明。数据集成主站的任务,通常Code24

引擎计算类节点

您可在具体业务流程,选择在某引擎下新建对应类型的引擎节点,基于该节点进行数据开发,并将引擎代码下发至对应的数据清洗引擎上执行。

DataWorks集成的引擎

DataWorks对引擎能力的封装

节点编码

TaskType

MaxCompute

ODPS SQL节点

10

ODPS_SQL

ODPS Spark节点

225

SPARK

PyODPS 2节点

221

PY_ODPS

PyODPS 3节点

1221

PY_ODPS3

ODPS Script节点

24

ODPS_SCRIPT

ODPS MR节点

11

ODPS_MR

SQL组件节点

1010

COMPONENT_SQL

E-MapReduce

EMR Hive节点

227

EMR_HIVE

EMR MR节点

230

EMR_MR

EMR Spark SQL节点

229

EMR_SPARK_SQL

EMR Spark节点

228

EMR_SPARK

EMR Shell节点

257

EMR_SHELL

EMR Presto节点

259

EMR_PRESTO

EMR Impala节点

260

EMR_IMPALA

EMR Spark Streaming节点

264

SPARK_STREAMING

EMR Kyuubi节点

268

EMR_KYUUBI

EMR Trino节点

267

EMR_TRINO

CDH

CDH Hive节点

270

CDH_HIVE

CDH Spark节点

271

CDH_SPARK

CDH MR节点

273

CDH_MR

CDH Presto节点

278

CDH_PRESTO

CDH Impala节点

279

CDH_IMPALA

CDH Spark SQL节点

272

CDH_SPARK_SQL

AnalyticDB For PostgreSQL

AnalyticDB for PostgreSQL节点

-

-

AnalyticDB For MySQL

AnalyticDB for MySQL节点

-

-

Hologres

Hologres SQL节点

1093

HOLOGRES_SQL

一键MaxCompute表结构同步节点

1094

HOLOGRES_SYNC_DDL

一键MaxCompute数据同步节点

1095

HOLOGRES_SYNC_DATA

ClickHouse

ClickHouse SQL

1301

CLICK_SQL

StarRocks

StarRocks

10004

-

算法(机器学习)

PAI Studio节点

1002

ML

PAI Designer节点

1117

PAI_STUDIO

PAI DLC节点

1119

PAI_DLC

数据库

MySQL节点

1000039

-

SQL Server节点

10001

-

Oracle节点

10002

-

PostgreSQL节点

10003

-

DRDS节点

10005

-

PolarDB MySQL节点

10006

-

PolarDB PostgreSQL节点

10007

-

Doris节点

10008

-

MariaDB节点

10009

-

SelectDB节点

10010

-

Redshift节点

10011

-

SAP HANA节点

-

-

Vertica节点

10013

-

DM(达梦)节点

10014

-

KingbaseES(人大金仓)节点

10015

-

OceanBase节点

10016

-

DB2节点

10017

-

GBase 8a节点

-

-

其他

Data Lake Analytics节点

1000023

-

通用类节点

引擎节点可结合通用节点进行复杂逻辑处理。在具体业务流程下,您可在通用节点分组下新建所需节点,结合引擎节点实现复杂逻辑处理。

业务场景

节点类型

使用说明

节点编码

TaskType

业务管理

虚拟节点

虚拟节点属于控制类型节点,它是不产生任何数据的空跑节点,通常作为业务流程统筹节点的根节点,方便您管理节点及业务流程。

99

VIRTUAL_NODE

事件触发

HTTP触发器节点

如果您希望其他调度系统的任务完成后触发DataWorks上的任务运行,可以使用此节点。

说明

DataWorks已不再支持新建跨租户节点,如果您使用了跨租户节点,建议更换为HTTP触发器节点,该节点与跨租户节点能力相同。

1114

SCHEDULER_TRIGGER

OSS对象检查节点

通过监控OSS对象产生来触发下游节点执行。

239

-

FTP Check节点

通过监控FTP文件产生来触发下游节点执行。

说明

DataWorks官方建议使用Check节点代替FTP Check节点作为检查节点。

1320

FTP_CHECK

Check节点

用于检查目标对象是否可用,当Check节点满足检查策略后会返回运行成功状态,若存在下游依赖,会触发下游任务执行。支持检查的目标对象:

  • MaxCompute分区表

  • FTP文件

  • OSS文件

  • HDFS

  • OSS-HDFS

241

-

数据质量

数据质量监控节点

可通过配置数据质量监控规则,监控相关数据源表的数据质量(例如,是否存在脏数据)。同时,支持您自定义调度策略,周期性执行监控任务进行数据校验。

1333

DATA_QUALITY_MONITOR

数据对比节点

对比节点可在工作流中实现对不同表数据进行多种方式的对比。

1331

DATA_SYNCHRONIZATION_QUALITY_CHECK

参数赋值与传递

赋值节点

用于参数传递,通过自带的output输出将赋值节点最后一条查询或输出结果通过节点上下文功能传递到下游,实现参数跨节点传递。

1100

CONTROLLER_ASSIGNMENT

参数节点

用于上游节点将参数汇总并分发向下传递。

1115

PARAM_HUB

控制类

for-each节点

用于遍历赋值节点传递的结果集。

1106

CONTROLLER_TRAVERSE

do-while节点

用于循环执行部分节点逻辑,同时您也可结合赋值节点来循环输出赋值节点传递的结果。

1103

CONTROLLER_CYCLE

分支节点

用于对上游结果进行判断,决定不同结果走不同的分支逻辑,您可结合赋值节点一起使用。

1101

CONTROLLER_BRANCH

归并节点

用于对上游节点的运行状态进行归并,解决分支节点下游节点的依赖挂载和运行触发问题。

1102

CONTROLLER_JOIN

其他

Shell节点

Shell节点支持标准Shell语法,但不支持交互性语法。

6

SHELL2

函数计算节点

用于周期性调度处理事件函数,并完成与其它类型节点的集成和联合调度。

1330

FUNCTION_COMPUTE

数据推送节点

用于将业务流程中的查询数据推送至,钉钉群、飞书群、企业微信群以及Teams内,便于团队成员及时接收和关注最新数据情况。

1332

DATA_PUSH