本文将以创建业务流程为例,为您介绍如何在业务流程中创建节点并配置依赖关系,以方便的设计来展现数据分析的步骤和顺序。并简要说明如何利用数据开发功能,对工作空间的数据进行深入分析和计算。

DataWorks的数据开发功能支持在业务流程中,通过可视化拖拽来完成节点间的依赖设置。以操作业务流程的方式,实现对数据的处理和相互依赖。目前支持ODPS SQL、ODPS Script、ODPS Spark、PyODPS、虚拟节点、ODPS MR和Shell等多种节点类型,详情请参见节点类型介绍

前提条件

开始本操作前,请确保您已根据建表并上传数据的操作,在工作空间中准备好业务数据表bank_data和其中的数据,以及结果表result_table。

创建业务流程

  1. 创建工作空间后,单击对应工作空间操作栏下的进入数据开发
  2. 进入DataStudio(数据开发)页面,选择新建 > 业务流程

  3. 新建业务流程对话框中,填写业务流程名称描述

  4. 单击新建

新建节点并配置依赖关系

本节将在业务流程中创建一个虚拟节点(start)和odps_sql节点(insert_data),并将依赖关系配置为insert_data依赖于start。

说明 使用虚拟节点时,需要注意以下几点:
  • 虚拟节点属于控制类型节点,在业务流程运行过程中,不会对数据产生任何影响,仅用于实现对下游节点的运维控制。
  • 虚拟节点在被其他节点依赖的情况下,如果被运维人员手动设置为运行失败,则下游未运行的节点将因此无法被触发运行。在运维过程中,可以防止上游错误数据进一步蔓延。详情请参见虚拟节点
  • 业务流程中,虚拟节点的上游节点,通常会设置为工作空间根节点。工作空间根节点的格式为工作空间名_root

综上所述,通常建议设计业务流程时,默认创建一个虚拟节点作为业务流程的根节点来控制整个工作流。

  1. 进入业务流程开发面板,并向面板中拖入一个虚拟节点,填写节点名称为start,单击节点名称

  2. 向面板中拖入一个ODPS_SQL节点,填写节点名称为insert_data,单击提交
  3. 拖拽连线,将start节点设置为insert_data节点的上游节点。

配置虚拟节点的上游依赖

在业务流程中,虚拟节点通常作为整个业务流程的控制器,是整个业务流程中所有节点的上游。通常会设置业务流程中的虚拟节点依赖整个工作空间的根节点。

  1. 双击虚拟节点,单击右侧的调度配置
  2. 单击使用工作空间根节点,设置虚拟节点的上游节点为工作空间根节点。

  3. 配置完成后,单击左上角的进行保存。

在ODPS_SQL节点中编辑代码

本节将在ODPS_SQL节点(insert_data)中,通过SQL代码,查询不同学历的单身人士贷款买房的数量,并将保存加过,以便后续节点继续分析或展现。

SQL语句如下所示,具体语法说明请参见SQL概述

INSERT OVERWRITE TABLE result_table  --数据插入到result_table中。
SELECT education
    , COUNT(marital) AS num
FROM bank_data
WHERE housing = 'yes'
    AND marital = 'single'
GROUP BY education

运行并调试ODPS_SQL节点

  1. 在insert_data节点中编辑好SQL语句后,单击保存,防止代码丢失。
  2. 单击运行,查看运行日志和结果。

提交业务流程

  1. 运行并调试好ODPS_SQL节点insert_data后,返回业务流程页面,单击提交
  2. 提交对话框中,勾选需要提交的节点,填写备注,并勾选备注

  3. 单击提交

后续步骤

现在,您已经学习了如何创建和提交业务流程,您可以继续学习下一个教程。在该教程中,您将学习如何通过创建同步任务,将数据回流至不同类型的数据源中。详情请参见创建数据同步任务