DataWorks的数据开发(DataStudio)模块为您提供多种类型的节点,包括用于数据同步的数据集成节点,用于数据清洗的引擎计算节点(例如,ODPS SQL、Hologres SQL、EMR Hive),以及可对引擎计算节点进行复杂逻辑处理的通用节点(例如,可统筹管理多个节点的虚拟节点、可循环执行代码的do-while节点),多种节点配合使用,满足您不同的数据处理需求。
数据开发(DataStudio)支持的节点合集
数据开发支持的节点类型汇总如下。
类型 | 描述 |
DataWorks数据集成支持复杂网络环境下的数据同步,并提供用于离线(批量)数据周期性同步的离线同步节点,与用于单表或整库增量数据实时同步的实时同步节点。该节点可在数据开发(DataStudio)界面直接创建。 | |
DataWorks将计算引擎能力进行封装,您可基于引擎节点进行数据开发,无需接触复杂的引擎命令行,便可在DataWorks实现各类任务的周期性调度。 目前支持MaxCompute、Hologres、E-MapReduce、AnalyticDB For PostgreSQL、AnalyticDB For MySQL、MySQL、ClickHouse、CDH、算法等多类计算引擎的多种节点。 | |
DataWorks提供的通用类型节点可结合引擎计算节点进行复杂逻辑处理。例如:用于循环执行代码的do-while节点,与遍历、判断上游赋值结果的for-each节点、分支节点等。 |
本文为您呈现了节点类型对应的节点编码(即节点Code),通过调用API执行节点相关操作(例如,获取节点信息)时会使用该编码。您也可调用ListFileType接口,查询节点编码。
数据集成同步类节点
用于数据同步任务使用,数据集成类型节点介绍如下。
数据集成节点 | 使用介绍 | 节点编码 |
用于离线(批量)数据周期性同步场景,并且支持复杂场景下多种异构数据源间数据同步。 离线同步支持的数据源详情,请参见支持的数据源及同步方案。 | 23 | |
用于增量数据实时同步场景。实时同步包括实时读取、转换和写入三种基础插件,各插件之间通过内部定义的中间数据格式进行交互。 实时同步支持的数据源详情,请参见支持的数据源及同步方案。 | 900 |
除在数据开发(DataStudio)界面直接创建的节点外,数据集成主站还支持多种类型同步方案。例如,全增量数据实时同步,整库离线同步等,详情请参见数据集成侧同步任务能力说明。数据集成主站的任务,通常Code为24
。
引擎计算类节点
您可在具体业务流程,选择在某引擎下新建对应类型的引擎节点,基于该节点进行数据开发,并将引擎代码下发至对应的数据清洗引擎上执行。引擎计算类型节点介绍如下。
请先为DataWorks工作空间开通对应服务并创建相应引擎数据源,DataWorks需基于创建的数据源访问对应引擎数据并执行相关开发操作。创建数据源,请参见创建并管理数据源。
DataWorks集成的引擎 | DataWorks对引擎能力的封装 | 节点编码 |
MaxCompute | 10 | |
225 | ||
221 | ||
1221 | ||
24 | ||
11 | ||
1010 | ||
E-MapReduce | 227 | |
230 | ||
229 | ||
228 | ||
257 | ||
259 | ||
260 | ||
264 | ||
268 | ||
267 | ||
CDH | 270 | |
271 | ||
273 | ||
278 | ||
279 | ||
- | ||
AnalyticDB For PostgreSQL | - | |
AnalyticDB For MySQL | - | |
Hologres | 1093 | |
1094 | ||
- | ||
ClickHouse | - | |
StarRocks | 10004 | |
算法(机器学习) | - | |
- | ||
- | ||
数据库 | 1000039 | |
10001 | ||
10002 | ||
10003 | ||
10005 | ||
10006 | ||
10007 | ||
10008 | ||
10009 | ||
10010 | ||
10011 | ||
- | ||
10013 | ||
10014 | ||
10015 | ||
10016 | ||
10017 | ||
- | ||
其他 | 1000023 |
通用类节点
引擎节点可结合通用节点进行复杂逻辑处理。在具体业务流程下,您可在通用节点分组下新建所需节点,结合引擎节点实现复杂逻辑处理。不同节点的使用场景及相关介绍如下。
业务场景 | 节点类型 | 节点编码 | 使用说明 |
业务管理 | 99 | 虚拟节点属于控制类型节点,它是不产生任何数据的空跑节点,通常作为业务流程统筹节点的根节点,方便您管理节点及业务流程。 | |
事件触发 | 1114 | 如果您希望其他调度系统的任务完成后触发DataWorks上的任务运行,可以使用此节点。 说明 DataWorks已不再支持新建跨租户节点,如果您使用了跨租户节点,建议更换为HTTP触发器节点,该节点与跨租户节点能力相同。 | |
239 | 通过监控OSS对象产生来触发下游节点执行。 | ||
1320 | 通过监控FTP文件产生来触发下游节点执行。 | ||
241 | 用于检查目标对象(MaxCompute分区表、FTP文件或OSS文件)是否可用,当Check节点满足检查策略后会返回运行成功状态。如果某任务的运行依赖目标对象,您可使用Check节点检查目标对象,并设置该任务为Check节点的下游任务,当Check节点满足检查策略后,便会运行成功并触发下游任务执行。 | ||
1333 | 可通过配置数据质量监控规则,监控相关数据源表的数据质量(例如,是否存在脏数据)。同时,支持您自定义调度策略,周期性执行监控任务进行数据校验。 | ||
参数赋值与传递 | 1100 | 用于参数传递,通过自带的output输出将赋值节点最后一条查询或输出结果通过节点上下文功能传递到下游,实现参数跨节点传递。 | |
1115 | 用于上游节点将参数汇总并分发向下传递。 | ||
控制类 | 1106 | 用于遍历赋值节点传递的结果集。 | |
1103 | 用于循环执行部分节点逻辑,同时您也可结合赋值节点来循环输出赋值节点传递的结果。 | ||
1101 | 用于对上游结果进行判断,决定不同结果走不同的分支逻辑,您可结合赋值节点一起使用。 | ||
1102 | 用于对上游节点的运行状态进行归并,解决分支节点下游节点的依赖挂载和运行触发问题。 | ||
其他 | 6 | Shell节点支持标准Shell语法,但不支持交互性语法。 | |
1330 | 用于周期性调度处理事件函数,并完成与其它类型节点的集成和联合调度。 |