DataWorks将不同类型引擎任务封装为不同节点,通过节点来定义数据开发任务。同时,支持使用资源、函数、以及相关逻辑处理节点开发更多复杂的任务。本文为您介绍数据开发任务的通用开发流程。

前提条件

进入数据开发

  1. 登录DataWorks控制台
  2. 选择目标区域后,在左侧导航栏单击工作空间列表
  3. 单击目标工作空间后的数据开发,即可进入该工作空间的数据开发(DataStudio)模块。
    进入数据开发后,您可根据下文流程创建所需任务。

开发流程

数据开发任务的通用开发流程如下。脚本开发流程
步骤描述相关文档
步骤一:新建业务流程DataWorks数据开发基于业务流程组织与开发代码,您需先新建业务流程,才可进行后续的开发工作。创建业务流程
步骤二:新建数据表DataWorks支持使用可视化方式创建表,并以目录结构在界面展示。同时,支持对创建的表执行相关管理操作。

进行数据开发前,您需先在引擎创建用于存放原始数据的表、接收数据清洗结果的表。具体创建哪种类型的表,请以实际使用为准。

步骤三:新建并上传资源(可选)DataWorks支持将文本文件、JAR压缩包等,作为不同类型的资源上传至指定计算引擎,在开发过程中读取使用。若开发过程需使用资源,您可通过DataWorks可视化方式上传资源,并进行后续资源管理操作。
说明 在DataWorks中支持新建资源的引擎,以及支持的资源类型,请以实际使用界面为准。
步骤四:新建调度节点DataWorks基于节点进行任务开发,不同类型的引擎任务在DataWorks上被封装为不同类型的节点。您可根据业务需要,选择合适的节点开发引擎任务。

同时,支持便捷的节点管理操作。例如,使用节点组批量克隆节点;通过回收站快速恢复已删除节点。

DataWorks支持如下多类引擎:各类引擎的不同任务可选用不同类型的节点,各引擎的节点详细列表请参见DataWorks节点合集
步骤五:节点引用资源(可选)在DataWorks中使用资源,需先将资源加载至节点的运行环境,加载后才可在节点中使用。
步骤六:注册函数(可选)若开发过程需使用函数,您可通过DataWorks可视化方式注册函数。注册函数前,请先将注册函数需使用的资源上传至DataWroks。
说明 在DataWorks中支持注册函数的引擎,请以实际使用界面为准。
步骤七:编辑节点代码根据节点类型,在节点编辑页面通过对应引擎与数据库语法编写业务代码。不同节点所使用的语法可能存在差异,具体请以实际使用为准。
说明 代码编辑完成后,请尽快保存(保存),避免代码丢失。
DataWorks支持的节点列表详情请参见DataWorks节点合集
常用引擎的使用说明:

后续:调试代码及配置调度

任务代码开发完成后,您可根据需要调试运行单个任务,或调试运行整个业务流程,并在调试完成后查看运行结果,详情请参见任务调试流程。如需节点进行周期性调度,可参考任务调度配置进行配置。