本文为您介绍DataWorks中,工作空间、业务流程、解决方案、组件、任务、实例、提交、脚本开发、资源、函数和输出名称等基本概念。
工作空间
一个工作空间支持绑定MaxCompute、E-MapReduce和实时计算等多种类型的计算引擎实例。绑定引擎实例后,即可在工作空间开发和调度引擎任务。
- 支持基于任务类型的代码组织方式。
- 支持多级子目录(建议不超过四级)。
- 支持从业务视角查看整体的业务流程,并进行优化。
- 支持根据业务流程组织发布和运维。
- 提供业务流程看板,帮助您更高效地进行开发。
解决方案
您可以自定义组合部分业务流程为一个解决方案。
- 一个解决方案可以包括多个业务流程。
- 解决方案之间可以复用相同的业务流程。
- 组织完成的解决方案包含各类节点,提高您的使用体验。
组件
您可以将SQL中的通用逻辑抽象为组件,提高代码的复用性。
SQL代码的处理过程通常是引入一到多个源数据表,通过过滤、连接和聚合等操作,加工出新的业务需要的目标表。组件是带有多个输入参数和输出参数的SQL代码过程模板。
任务(Task)
- 通过数据同步节点任务,将数据从RDS同步至MaxCompute。
- 通过MaxCompute SQL节点任务,运行MaxCompute SQL来进行数据的转换。
每个任务使用0或0个以上的数据表(数据集)作为输入,生成一个或多个数据表(数据集)作为输出。

任务类型 | 描述 |
---|---|
节点任务(Node Task) | 一个数据执行的操作。可以与其它节点任务、工作流任务配置依赖关系,组成DAG图。 |
工作流任务(Flow Task) | 满足一个业务场景需求的一组内部节点,组成一个工作流任务,建议工作流任务小于10个。
工作流任务内部节点,无法被其它工作流任务、节点任务依赖。工作流任务可以与其它工作流任务、节点任务配置依赖关系,组成DAG图。
说明 从DataWorks V1.0升级的任务,仍保留工作流的概念。DataWorks V2.0及以上版本已无法创建工作流任务,您可以选择创建业务流程进行后续操作。
|
内部节点(innerNode) | 工作流任务内部的节点,与节点任务的功能基本一致。您可以通过拖拽形成依赖关系,其调度周期会继承工作流任务的调度周期,无法进行单独配置。 |
实例(Instance)
实例是某个任务在某时某刻执行的一个快照。调度系统中的任务,经过调度系统、手动触发运行后,会生成一个实例。实例中会有任务的运行时间、运行状态和运行日志等信息。
提交(Submit)
脚本开发(Script)
脚本开发是提供给数据分析使用的一个代码存储空间。脚本开发的代码无法发布到调度系统,无法进行调度参数配置,仅可以进行部分数据查询分析的工作。
资源、函数
资源、函数均为MaxCompute的概念,详情请参见资源和函数。
您可以在DataWorks中,通过界面管理资源和函数。如果通过MaxCompute的其它方式进行资源、函数管理,则无法在DataWorks中进行相关的查询。
输出名称
输出名称:每个任务(Task)输出点的名称。它是您在单个租户(阿里云账号)内设置依赖关系时,用于连接上下游两个任务(Task)的虚拟实体。

元数据
元数据是数据的描述数据,可以为数据说明其属性(名称、大小、数据类型等),或结构(字段、类型、长度等),或其相关数据(位于何处、拥有者、产出任务、访问权限等)。DataWorks中元数据主要指库、表相关的信息,元数据管理对应的主要应用是数据地图。
补数据
完成周期任务的开发,将任务提交发布之后,任务会按照调度配置定时运行。如果您希望对历史时间段内的数据进行计算,您可以使用补数据功能。补数据操作生成的补数据实例将按照指定的业务日期运行。
在文档使用中是否遇到以下问题
更多建议
匿名提交