全部产品
存储与CDN 数据库 安全 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 开发者工具 解决方案 物联网
DataWorks(数据工场)

任务类型介绍

更新时间:2017-11-14 13:48:31

DataWorks(数据工场,原大数据开发套件)中有 7种 类型的节点,分别适用于不同的使用场景。

任务类型

OPEN_MR 任务

OPEN_MR 任务用于在 MaxCompute 的 MapReduce 编程接口(Java API)基础上实现的数据处理程序的周期运行,使用示例请参见 创建 OPEN_MR 任务

MaxCompute 提供了 MapReduce 编程接口,您可以使用 MapReduce 提供的接口(Java API)编写 MapReduce 程序处理 MaxCompute 中的数据,并打包成为 JAR 等类型的资源文件上传到 DataWorks 中,然后配置 OPEN_MR 节点任务。

ODPS_MR 任务

MaxCompute 提供 MapReduce 编程接口,您可以使用 MapReduce 提供的接口(Java API)编写 MapReduce 程序处理 MaxCompute 中的数据,您可以通过创建 ODPS_MR 类型节点的方式在任务调度中使用,使用示例请参见 ODPS_MR 任务

ODPS_SQL 任务

ODPS_SQL 任务支持您直接在 Web 端编辑和维护 SQL 代码,并可方便地调试运行和协作开发。DataWorks 还支持代码内容的版本管理和上下游依赖自动解析等功能,使用示例请参见 新建任务

DataWorks 默认使用 MaxCompute 的 project 作为开发生产空间,因此 ODPS_SQL 节点的代码内容遵循 MaxCompute SQL 的语法。MaxCompute SQL 采用的是类似于 Hive 的语法,可以看作是标准 SQL 的子集,但不能因此简单地把 MaxCompute SQL 等价成一个数据库,它在很多方面并不具备数据库的特征,如事务、主键约束、索引等。

具体的 MaxCompute SQL 语法请参见 SQL 概要

数据同步任务

数据同步节点任务是阿里云数加平台对外提供的稳定高效、弹性伸缩的数据同步云服务。您通过数据同步节点可以轻松地将业务系统数据同步到 MaxCompute 上来。详情请参见 创建同步任务

机器学习任务

机器学习节点用来调用机器学习平台中构建的任务,并按照节点配置进行调度生产。详情请参见 机器学习任务

注意:

只有在机器学习平台创建并保存的实验,在 DataWorks 中的机器学习节点中才能选择该实验。

Shell 任务

Shell 节点支持标准的 Shell 语法,不支持交互式语法,详情请参见 Shell 任务

虚节点任务

虚拟节点属于控制类型节点,它不产生任何数据的空跑节点,常用于工作流统筹节点的根节点,虚节点任务详情请参见 虚节点任务

注意

工作流里最终输出表有多个分支输入表,且这些输入表没有依赖关系时便经常用到虚拟节点。

示例如下

输出表由 3 个数据同步任务导入的源表经过 ODPS_SQL 任务加工产出,这 3 个数据同步任务没有依赖关系,ODPS_SQL 任务需要依赖 3 个同步任务,则工作流如下图所示:

用一个虚拟节点作为工作流起始根节点,3 个数据同步任务依赖虚拟节点,ODPS_SQL 加工任务依赖 3 个同步任务 。

本文导读目录