全部产品
大数据开发套件

步骤2:创建工作流

更新时间:2017-08-30 19:15:12   分享:   

大数据开发套件的数据开发功能支持图形化设计数据分析工作流,以工作流任务和内部节点的方式实现对数据的处理和相互依赖。目前支持包括 ODPS_SQL、数据同步、OPEN_MR、SHELL、机器学习、虚节点等多种任务类型,每种任务类型的具体使用方法请参见 任务类型介绍

本文将以创建工作流 work 为例,说明如何在工作流中创建节点并配置依赖关系,以方便地设计和展现数据分析的步骤和顺序,并简要说明如何利用数据开发功能对工作空间的数据做进一步的分析和计算。

前提条件

在开始本操作前请确保您已根据 创建表并上传数据 的操作,在工作空间中准备好业务数据表 bank_data 和其中的数据,以及结果表 result_table。

操作步骤

创建工作流

  1. 进入项目空间后,单击 数据开发 页面中的 新建,选择 新建任务。如下图所示:

  2. 选择弹出框中的相关内容,指定任务类型为 工作流任务。如下图所示:

    注意:下图中的调度属性一旦选定,不可以更改。

    1

在工作流画布中创建节点和关系

本节将在工作流中创建一个虚节点 start 和一个 odps_sql 节点 insert_data,并配置为 insert_data 依赖于 start。

注意:

  • 虚拟节点属于控制类型节点,在工作流运行过程中不对数据产生任何影响,仅用于实现对下游节点的运维控制。
  • 虚节点在被其他节点依赖的情况下,如果被运维人员手动设置为运行失败,则下游未运行的节点将因此无法被触发运行,在运维过程中可以防止上游错误数据进一步蔓延。详情请参见 任务类型介绍 中的虚节点类型。综上所述,一般建议设计工作流时,默认创建一个虚节点作为根节点来控制整个工作流。
  1. 双击虚节点,输入节点名 start。

    1

  2. 双击 ODPS_SQL,输入节点名 insert_data,如下图所示:

    1

  3. 单击 start 节点并拖动连线到 insert_data 节点,使 insert_data 节点依赖于 start 节点,如下图所示:

    1

在 ODPS_SQL 节点中编辑代码

本节将在 ODPS_SQL 节点 insert_data 中用 SQL 代码查询不同学历的单身人士贷款买房的数量,并将结果保存下来以备后续节点继续分析或展现。SQL 语句如下所示,具体语法说明请参见 MaxCompute 文档

  1. INSERT OVERWRITE TABLE result_table --数据插入到result_table
  2. SELECT education
  3. , COUNT(marital) AS num
  4. FROM bank_data
  5. WHERE housing = 'yes'
  6. AND marital = 'single'
  7. GROUP BY education

运行并调试 ODPS_SQL 节点

  1. 在 insert_data 节点中编辑好 SQL 语句后,单击 保存,防止代码丢失。

  2. 单击 运行,查看运行日志和结果。如下图所示:

    1

    完成以上操作后,您可以在左侧的 表查询 中查询这张表中的数据。

    1

保存并提交工作流

运行并调试好 ODPS_SQL 节点 insert_data 后,返回工作流页面,保存并提交整个工作流。如下图所示:

1

后续步骤

现在,您已经学习了如何创建工作流,并对其进行保存和提交,您可以继续学习下一个教程。在该教程中您将学习如何通过创建同步任务来把数据导出到不同类型的数据源中。详情请参见 创建同步任务导出结果

本文导读目录
本文导读目录
以上内容是否对您有帮助?