离线模式依赖关系配置

Dataphin通过各个节点的调度依赖配置结果,有序的运行业务流程中各个节点,保障业务数据有效、适时地产出。本文为您介绍如何配置流批一体任务的离线模式依赖关系。

背景信息

调度依赖就是节点间的上下游依赖关系,在Dataphin中,上游任务节点运行完成且运行成功,下游任务节点才会开始运行。配置调度依赖后,可以保障调度任务在运行时能取到正确的数据(当前节点依赖的上游节点成功运行后,Dataphin通过节点运行的状态识别到上游表的最新数据已产生,下游节点再去取数)。避免下游节点取数据时,上游表数据还未正常产出,导致下游节点取数时出现问题。

操作步骤

  1. 请参见离线模式配置入口,进入离线模式配置面板。

  2. 在离线模式配置面板依赖关系区域,配置依赖关系设置。

    image

    参数

    描述

    开始解析

    当节点的任务类型为SQL时,您可以单击开始解析,系统会解析代码中的表,并查找到与该表名相同的输出名称。输出名称所在的节点作为当前节点的上游依赖。

    如果代码中引用项目变量或不指定项目,则系统默认解析为生产项目名,以保证生成调度的稳定性。例如,开发项目名称为onedata_dev

    • 如果代码里指定select * from s_order,则调度解析依赖为onedata.s_order

    • 如果代码里指定select * from ${onedata}.s_order,则调度解析依赖为onedata.s_order

    • 如果代码里指定select * from onedata.s_order,则调度解析依赖为onedata.s_order

    • 如果代码里指定select * from onedata_dev.s_order,则调度解析依赖为onedata_dev.s_order

    上游依赖

    通过执行如下操作,添加该节点任务调度时依赖的上游节点:

    1. 单击手动添加上游

    2. 新建上游依赖对话框中,您可以通过以下两种方式搜索依赖节点:

      • 输入所依赖节点的输出名称的关键字进行搜索节点。

      • 输入virtual搜索虚拟节点(每个租户或企业在初始化时都会有一个根节点)。

      说明

      节点的输出名称是全局唯一的,且不区分大小写。

    3. 单击确定新增

    同时您还可以单击操作列下的fagaga图标,删除已添加的依赖节点。

    当前节点

    通过执行如下操作,设置当前节点的输出名称,根据需要您可以设置多个输出名称,供其他节点依赖使用:

    1. 单击手动添加输出

    2. 新增当前节点输出对话框中,填写输出名称。输出名称的命名规则请尽量统一,一般命名规则为生成项目名.表名且不区分大小写,以标识本节点产出的表,同时其他节点更好地选择调度依赖关系。

      例如,开发项目名称为onedata_dev,建议将输出名称设置为onedata.s_order。如果您将输出名称设置为onedata_dev.s_order,则仅限代码select * from onedata_dev.s_order能解析出上游依赖节点。

    3. 单击确定新增

    同时您还可以对当前节点已添加的输出名称执行如下操作:

    • 单击操作列下的fagaga图标,删除已添加的输出名称。

    • 如果该节点已提交或已发布,且被任务所依赖(任务已提交),则单击操作列下的图标,查看下游节点。

  3. 单击确定,完成离线模式依赖关系配置。