文档

DataWorks节点合集

更新时间:

DataWorks的数据开发(DataStudio)模块为您提供多种类型的节点,包括用于数据同步的数据集成节点,用于数据清洗的引擎计算节点(例如,ODPS SQL、Hologres SQL、EMR Hive),以及可对引擎计算节点进行复杂逻辑处理的通用节点(例如,可统筹管理多个节点的虚拟节点、可循环执行代码的do-while节点),多种节点配合使用,满足您不同的数据处理需求。

数据开发(DataStudio)支持的节点合集

数据开发支持的节点类型汇总如下。

类型

描述

数据集成同步类节点

DataWorks数据集成支持复杂网络环境下的数据同步,并提供用于离线(批量)数据周期性同步的离线同步节点,与用于单表或整库增量数据实时同步的实时同步节点。该节点可在数据开发(DataStudio)界面直接创建。

引擎计算类节点

DataWorks将计算引擎能力进行封装,您可基于引擎节点进行数据开发,无需接触复杂的引擎命令行,便可在DataWorks实现各类任务的周期性调度。

目前支持MaxComputeHologresE-MapReduceAnalyticDB For PostgreSQLAnalyticDB For MySQLMySQLClickHouseCDH算法等多类计算引擎的多种节点。

通用类节点

DataWorks提供的通用类型节点可结合引擎计算节点进行复杂逻辑处理。例如:用于循环执行代码的do-while节点,与遍历、判断上游赋值结果的for-each节点、分支节点等。

数据集成同步类节点

用于数据同步任务使用,数据集成类型节点介绍如下。

数据集成节点

使用介绍

离线同步节点

用于离线(批量)数据周期性同步场景,并且支持复杂场景下多种异构数据源间数据同步。

离线同步支持的数据源详情,请参见支持的数据源及同步方案

实时同步节点

用于增量数据实时同步场景。实时同步包括实时读取、转换和写入三种基础插件,各插件之间通过内部定义的中间数据格式进行交互。

实时同步支持的数据源详情,请参见支持的数据源及同步方案

说明

除在数据开发(DataStudio)界面直接创建的节点外,数据集成主站还支持多种类型同步方案。例如,全增量数据实时同步,整库离线同步等,详情请参见数据集成侧同步任务能力说明

引擎计算类节点

您可在具体业务流程,选择在某引擎下新建对应类型的引擎节点,基于该节点进行数据开发,并将引擎代码下发至对应的数据清洗引擎上执行。引擎计算类型节点介绍如下。

说明

请先为DataWorks工作空间开通对应的服务或绑定所需计算引擎,引擎绑定相关操作,详情请参见引擎绑定

DataWorks集成的引擎

DataWorks对引擎能力的封装

MaxCompute

E-MapReduce

CDH

  • CDH HIVE节点

  • CDH SPARK节点

  • CDH MR节点

  • CDH Presto节点

  • CDH Impala节点

AnalyticDB For PostgreSQL

AnalyticDB for PostgreSQL节点

AnalyticDB For MySQL

AnalyticDB for MySQL节点

Hologres

ClickHouse

ClickHouse SQL节点

StarRocks

StarRocks节点

算法(机器学习)

数据库及其他

说明

该类节点无需绑定引擎,但要新建相关数据源。

通用类节点

引擎节点可结合通用节点进行复杂逻辑处理。在具体业务流程下,您可在通用节点分组下新建所需节点,结合引擎节点实现复杂逻辑处理。不同节点的使用场景及相关介绍如下。

业务场景

节点类型

使用说明

业务管理

虚拟节点

虚拟节点属于控制类型节点,它是不产生任何数据的空跑节点,通常作为业务流程统筹节点的根节点,方便您管理节点及业务流程。

事件触发

HTTP触发器节点

如果您希望其他调度系统的任务完成后触发DataWorks上的任务运行,可以使用此节点。

OSS对象检查节点

通过监控OSS对象产生来触发下游节点执行。

FTP Check节点

通过监控FTP文件产生来触发下游节点执行。

Check节点

检查MaxCompute分区表是否已达到可用状态(即目标分区存在或已判断分区数据写入完成)。当下游任务需依赖该MaxCompute分区表时,您可使用此功能先检查分区数据是否可用,避免操作的数据有误。

参数赋值与传递

赋值节点

用于参数传递,通过自带的output输出将赋值节点最后一条查询或输出结果通过节点上下文功能传递到下游,实现参数跨节点传递。

参数节点

用于上游节点将参数汇总并分发向下传递。

控制类

配置for-each节点

用于遍历赋值节点传递的结果集。

配置do-while节点

用于循环执行部分节点逻辑,同时您也可结合赋值节点来循环输出赋值节点传递的结果。

分支节点

用于对上游结果进行判断,决定不同结果走不同的分支逻辑,您可结合赋值节点一起使用。

归并节点

用于对上游节点的运行状态进行归并,解决分支节点下游节点的依赖挂载和运行触发问题。

其他

Shell节点

Shell节点支持标准Shell语法,但不支持交互性语法。

函数计算节点

用于周期性调度处理事件函数,并完成与其它类型节点的集成和联合调度。

  • 本页导读 (1)
文档反馈