DataWorks(数据工场,原大数据开发套件)支持多种类型的节点,分别适用于不同的使用场景。

数据同步节点

数据同步节点是阿里云数加平台对外提供的稳定高效、弹性伸缩的数据同步云服务。您可以通过数据同步节点,轻松地将业务系统数据同步至MaxCompute。详情请参见数据同步节点

ODPS Script节点

DataWorks提供ODPS Script节点类型,新建和配置操作请参见ODPS Script节点

ODPS SQL节点

ODPS SQL任务支持您直接在Web端编辑和维护SQL代码,并可以方便地调试运行和协作开发。DataWorks还支持代码内容的版本管理和上下游依赖自动解析等功能,使用示例请参见ODPS SQL节点

DataWorks默认使用MaxCompute的项目作为开发生产空间,因此ODPS SQL节点的代码内容遵循MaxCompute SQL的语法。MaxCompute SQL采用的是类似于Hive的语法,可以看作是标准SQL的子集,但不能因此简单地把MaxCompute SQL等价成一个数据库,它在很多方面并不具备数据库的特征,如事务、主键约束和索引等。

具体的MaxCompute SQL语法请参见SQL概述

SQL组件节点

SQL组件是一种带有多个输入参数和输出参数的SQL代码过程模板,SQL代码的处理过程一般是引入一到多个源数据表,通过过滤、连接和聚合等操作,加工出新的业务需要的目标表,详情请参见SQL组件节点

ODPS Spark节点

DataWorks提供ODPS Spark节点类型,新建和配置操作请参见ODPS Spark节点

虚拟节点

虚拟节点属于控制类型节点,它不产生任何数据的空跑节点,常用于工作流统筹节点的根节点,虚节点任务详情请参见虚拟节点
说明 工作流的最终输出表有多个分支输入表,且这些输入表没有依赖关系时便经常用到虚拟节点。

ODPS MR节点

MaxCompute提供MapReduce编程接口,您可以使用MapReduce提供的接口(Java API)编写MapReduce程序处理MaxCompute中的数据,您可以通过创建ODPS_MR类型节点的方式在任务调度中使用,使用示例请参见ODPS MR节点

Shell节点

Shell节点支持标准Shell语法,不支持交互性语法。Shell节点可以在默认资源组上运行,如果需要访问IP/域名,请在项目管理下的项目配置页面将IP/域名添加到白名单中。详情请参见Shell节点

PyODPS节点

Maxcompute提供了Python SDK,您可以使用Python的SDK来操作Maxcompute。

DataWorks也提供PyODPS节点类型,集成了Maxcompute的Python SDK,可以在DataWorks的PyODPS节点上直接编辑Python代码操作Maxcompute。详情请参见PyODPS节点

for-each节点

您可以通过for-each节点实现循环N次,每次循环中把当前的循环次数打印出来的需求。详情请参见遍历(for-each)节点

说明 您需要购买DataWorks标准版及以上版本,方可使用此功能。

do-while节点

您可以在do-while节点中定义相互依赖的任务,任务中包含一个名为end的循环判断节点。Dataworks会不断重复执行这一批任务,直到循环判断节点end把判断结果置为false,Dataworks才会退出整个循环。详情请参见循环(do-while)节点

说明 您需要购买DataWorks标准版及以上版本,方可使用此功能。

跨租户节点

跨租户节点主要用于不同租户的节点之间的联动,分为发送节点和接收节点。详情请参见跨租户节点

归并节点

归并节点可以对上游节点的运行状态进行归并,用来解决分支节点下游节点的依赖挂载和运行触发问题。详情请参见归并节点

说明 您需要购买DataWorks标准版及以上版本,方可使用此功能。

分支节点

分支节点是DataStudio中提供的逻辑控制系列节点中的一类。分支节点可以定义分支逻辑和不同逻辑条件时下游分支走向。详情请参见分支节点

说明 您需要购买DataWorks标准版及以上版本,方可使用此功能。

赋值节点

赋值节点是一种特殊的节点类型,支持在节点中通过编写代码的方式对输出参数赋值,结合节点上下文传递,供下游节点引用和使用其取值。详情请参见赋值节点

说明 您需要购买DataWorks标准版及以上版本,方可使用此功能。

OSS对象检查节点

当下游任务需要依赖该OSS对象何时传入OSS时,可以使用OSS对象检查节点功能。例如同步OSS数据到DataWorks,需要先检测OSS数据文件已经产生,方可进行OSS同步任务。详情请参见OSS对象检查