DataWorks节点合集

DataWorks的数据开发(DataStudio)模块为您提供多种类型的节点,包括用于数据同步的数据集成节点,用于数据清洗的引擎计算节点(例如,ODPS SQL、Hologres SQL、EMR Hive),以及可对引擎计算节点进行复杂逻辑处理的通用节点(例如,可统筹管理多个节点的虚拟节点、可循环执行代码的do-while节点),多种节点配合使用,满足您不同的数据处理需求。

数据开发(DataStudio)支持的节点合集

数据开发支持的节点类型汇总如下。

类型

描述

数据集成同步类节点

DataWorks数据集成支持复杂网络环境下的数据同步,并提供用于离线(批量)数据周期性同步的离线同步节点,与用于单表或整库增量数据实时同步的实时同步节点。该节点可在数据开发(DataStudio)界面直接创建。

引擎计算类节点

DataWorks将计算引擎能力进行封装,您可基于引擎节点进行数据开发,无需接触复杂的引擎命令行,便可在DataWorks实现各类任务的周期性调度。

目前支持MaxComputeHologresE-MapReduceAnalyticDB For PostgreSQLAnalyticDB For MySQLMySQLClickHouseCDH算法等多类计算引擎的多种节点。

通用类节点

DataWorks提供的通用类型节点可结合引擎计算节点进行复杂逻辑处理。例如:用于循环执行代码的do-while节点,与遍历、判断上游赋值结果的for-each节点、分支节点等。

说明

本文为您呈现了节点类型对应的节点编码(即节点Code),通过调用API执行节点相关操作(例如,获取节点信息)时会使用该编码。您也可调用ListFileType接口,查询节点编码。

数据集成同步类节点

用于数据同步任务使用,数据集成类型节点介绍如下。

数据集成节点

使用介绍

节点编码

离线同步节点

用于离线(批量)数据周期性同步场景,并且支持复杂场景下多种异构数据源间数据同步。

离线同步支持的数据源详情,请参见支持的数据源及同步方案

23

实时同步节点

用于增量数据实时同步场景。实时同步包括实时读取、转换和写入三种基础插件,各插件之间通过内部定义的中间数据格式进行交互。

实时同步支持的数据源详情,请参见支持的数据源及同步方案

900

说明

除在数据开发(DataStudio)界面直接创建的节点外,数据集成主站还支持多种类型同步方案。例如,全增量数据实时同步,整库离线同步等,详情请参见数据集成侧同步任务能力说明。数据集成主站的任务,通常Code为24

引擎计算类节点

您可在具体业务流程,选择在某引擎下新建对应类型的引擎节点,基于该节点进行数据开发,并将引擎代码下发至对应的数据清洗引擎上执行。引擎计算类型节点介绍如下。

说明

请先为DataWorks工作空间开通对应服务并创建相应引擎数据源,DataWorks需基于创建的数据源访问对应引擎数据并执行相关开发操作。创建数据源,请参见创建并管理数据源

DataWorks集成的引擎

DataWorks对引擎能力的封装

节点编码

MaxCompute

ODPS SQL节点

10

ODPS Spark节点

225

PyODPS 2节点

221

PyODPS 3节点

1221

ODPS Script节点

24

ODPS MR节点

11

SQL组件节点

1010

E-MapReduce

EMR Hive节点

227

EMR MR节点

230

EMR Spark SQL节点

229

EMR Spark节点

228

EMR Shell节点

257

EMR Presto节点

259

EMR Impala节点

260

EMR Spark Streaming节点

264

EMR Kyuubi节点

268

EMR Trino节点

267

CDH

CDH Hive节点

270

CDH Spark节点

271

CDH MR节点

273

CDH Presto节点

278

CDH Impala节点

279

CDH Spark SQL节点

-

AnalyticDB For PostgreSQL

AnalyticDB for PostgreSQL节点

-

AnalyticDB For MySQL

AnalyticDB for MySQL节点

-

Hologres

Hologres SQL节点

1093

一键MaxCompute表结构同步节点

1094

一键MaxCompute数据同步节点

-

ClickHouse

ClickHouse SQL

-

StarRocks

StarRocks

10004

算法(机器学习)

PAI Studio节点

-

PAI Designer节点

-

PAI DLC节点

-

数据库

MySQL节点

1000039

SQL Server节点

10001

Oracle节点

10002

PostgreSQL节点

10003

DRDS节点

10005

PolarDB MySQL节点

10006

PolarDB PostgreSQL节点

10007

Doris节点

10008

MariaDB节点

10009

SelectDB节点

10010

Redshift节点

10011

SAP HANA节点

-

Vertica节点

10013

DM(达梦)节点

10014

KingbaseES(人大金仓)节点

10015

OceanBase节点

10016

DB2节点

10017

GBase 8a节点

-

其他

Data Lake Analytics节点

1000023

通用类节点

引擎节点可结合通用节点进行复杂逻辑处理。在具体业务流程下,您可在通用节点分组下新建所需节点,结合引擎节点实现复杂逻辑处理。不同节点的使用场景及相关介绍如下。

业务场景

节点类型

节点编码

使用说明

业务管理

虚拟节点

99

虚拟节点属于控制类型节点,它是不产生任何数据的空跑节点,通常作为业务流程统筹节点的根节点,方便您管理节点及业务流程。

事件触发

HTTP触发器节点

1114

如果您希望其他调度系统的任务完成后触发DataWorks上的任务运行,可以使用此节点。

说明

DataWorks已不再支持新建跨租户节点,如果您使用了跨租户节点,建议更换为HTTP触发器节点,该节点与跨租户节点能力相同。

OSS对象检查节点

239

通过监控OSS对象产生来触发下游节点执行。

FTP Check节点

1320

通过监控FTP文件产生来触发下游节点执行。

Check节点

241

用于检查目标对象(MaxCompute分区表、FTP文件或OSS文件)是否可用,当Check节点满足检查策略后会返回运行成功状态。如果某任务的运行依赖目标对象,您可使用Check节点检查目标对象,并设置该任务为Check节点的下游任务,当Check节点满足检查策略后,便会运行成功并触发下游任务执行。

数据质量监控节点

1333

可通过配置数据质量监控规则,监控相关数据源表的数据质量(例如,是否存在脏数据)。同时,支持您自定义调度策略,周期性执行监控任务进行数据校验。

参数赋值与传递

赋值节点

1100

用于参数传递,通过自带的output输出将赋值节点最后一条查询或输出结果通过节点上下文功能传递到下游,实现参数跨节点传递。

参数节点

1115

用于上游节点将参数汇总并分发向下传递。

控制类

for-each节点

1106

用于遍历赋值节点传递的结果集。

do-while节点

1103

用于循环执行部分节点逻辑,同时您也可结合赋值节点来循环输出赋值节点传递的结果。

分支节点

1101

用于对上游结果进行判断,决定不同结果走不同的分支逻辑,您可结合赋值节点一起使用。

归并节点

1102

用于对上游节点的运行状态进行归并,解决分支节点下游节点的依赖挂载和运行触发问题。

其他

Shell节点

6

Shell节点支持标准Shell语法,但不支持交互性语法。

函数计算节点

1330

用于周期性调度处理事件函数,并完成与其它类型节点的集成和联合调度。