全部产品
存储与CDN 数据库 安全 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 开发者工具 解决方案 物联网
DataWorks(数据工场)

数据开发概述

更新时间:2017-11-07 11:33:33

数据开发 页面是您根据业务需求,设计数据计算流程,并实现为多个相互依赖的任务,供调度系统自动执行的主要操作页面。

对象

在数据开发阶段,DataWorks(数据工场,原大数据开发套件)提供了 4 种对象供您按需使用:任务、脚本、资源和函数。它们之间的项目关系如下图所示:

图片名称

对象说明:

  • 任务:数据开发的主要对象,包含周期属性和依赖关系,是数据计算的主要载体,支持多种类型的任务和节点适应不同场景,详情请参见 任务类型概述

  • 脚本:数据开发的辅助对象,不包含周期属性和依赖关系,主要用于实现非周期的临时数据处理,如临时表的增删改等,详情请参见 脚本开发

  • 函数和资源:任务中的代码运行时需要引用的一些文件和计算函数,在任务正式执行前需要上传到计算空间(即 MaxCompute)中,详情请参见 资源管理函数使用

流程

一个任务的开发和使用流程如下图所示:

图片名称

上述各步骤的详细操作请参见 使用说明

任务运行说明

从流程的介绍可知,DataWorks 提供了 4 种运行方式,以使任务中的计算语句生效,适用场景和限制条件如下:

操作步骤 触发方式 运维中心是否有实例生成 调度属性情况 适用场景 特殊说明
页面直接运行 手动触发 不受调度周期和依赖关系影响 适用于代码调试阶段,无需保存提交 支持脚本和任务,但任务类型仅支持 ODPS_SQL、OPEN_MR、ODPS_MR、SHELL 4种
测试运行 手动触发 仅受调度周期影响,不受依赖关系影响 适用于检查参数替换情况和代码实际运行效果 仅支持任务,且使用最新提交的版本
系统自动运行 系统触发 受调度周期和依赖关系影响 是使用DataWorks实现数据自动计算的主要方式,需要运维人员在运维中心维护所有周期实例按序成功执行 仅支持任务,且使用最新提交的版本
补数据运行 手动触发 受调度周期和依赖关系影响 是对系统自动运行方式的补充,部分任务由于新建或者出错,需要触发今天之前一段时间的数据计算时使用该功能 仅支持任务,且使用最新提交的版本
本文导读目录