配置离线单条管道

离线单条管道即处理离线同步任务的一条管道脚本。本文为您介绍如何新建离线单条管道及相关运维配置。

步骤一:创建管道开发脚本

  1. 登录Dataphin控制台

  2. 在Dataphin控制台页面,选择工作区地域后,单击进入Dataphin>>

  3. 在Dataphin首页,单击研发

  4. 在数据开发页面,按照下图操作指引,进入创建管道开发脚本对话框。

    gagaga
  5. 创建管道开发脚本对话框,配置参数后,单击确定

    ddd

    参数

    描述

    管道名称

    填写管道名称。

    调度类型

    选择管道的调度类型。调度类型包括:

    • 周期性节点指需定期执行的任务。

    • 手动节点指没有依赖关系,需手动触发的任务。

    描述

    填写对离线单条管道的简单描述。

    选择目录

    选择离线单条管道所在的文件夹。

步骤二:开发离线管道脚本

一个完整的离线管道由输入(>=1个)、转换(>=0个)、流程(>=0个)及输出(>=1个)组件组成。

  1. 进入离线单条管道脚本的开发页面,单击页面右上角的组件库,为您展示系统支持的输入转换流程输出开放组件。

  2. 根据您的业务场景,选择并配置输入组件。

    1. 单击输入前的dgd图标后,单击某个组件拖动到左侧的管道画布中。

    2. 将鼠标悬停在组件框内并右键单击,选择属性配置后,根据页面提示完成组件的基本配置,详情请参见配置MySQL输入组件。同时还支持复制删除组件及选择组件向下游节点数据发送方式

  3. (可选)

    根据您的业务场景,选择并配置转换组件。

    1. 单击转换前的dgd图标后,单击某个组件拖动到左侧的管道画布中。

    2. 将鼠标悬停在组件框内并右键单击,选择属性配置后,根据页面提示完成组件的基本配置,详情请参见组件库-转换组件。同时还支持复制删除组件及选择组件向下游节点数据发送方式

  4. (可选)

    根据您的业务场景,选择并配置流程组件。

    1. 单击流程前的dgd图标后,单击某个组件拖动到左侧的管道画布中。

    2. 将鼠标悬停在组件框内并右键单击,选择属性配置后,根据页面提示完成组件的基本配置,详情请参见组件库-流程组件。同时还支持复制删除组件。

  5. 根据您的业务场景,选择并配置输出组件。

    1. 单击输出前的dgd图标后,单击某个组件拖动到左侧的管道画布中。

    2. 将鼠标悬停在组件框内并右键单击,选择属性配置后,根据页面提示完成组件的基本配置,详情请参见组件库-输出组件。同时还支持复制删除组件。

  6. 单击上游组件中①后,拖动并指向下游组件中的②处,形成有向连线。

    ddd组件连接时的上下游关系,请参见下表。

    组件

    描述

    输入

    输入的使用说明:

    • 输入组件不支持有上游节点。

    • 输入下游节点可以是转换输出流程

    • 如果输入组件有多个下游节点(输出转换),则组件连接时需选择输入组件的数据发送方式ddd

      • 复制:上游节点的数据根据下游节点数量进行等份复制,且每个下游节点的数据都是上游节点的全部数据。

      • 轮流分发:上游节点的数据根据下游节点数量进行轮流分发,且所有下游节点的数据之和等于上游节点的数据。

    输出

    输出组件不支持有下游节点。

    流程

    流程组件的使用说明:

    • 流程组件不支持作为离线管道的第一个或最后一个节点,但支持放置于管道脚本中间的任意位置。

    • 如果流程组件有多个下游节点(转换输出流程),则组件连接时需选择输入组件的数据发送方式

    • 如果流程选择条件分发组件,则组件连接时需选择分发的条件:

      • 如果您选择条件结果为true,当上游节点的结果为true时,数据向下游发送。

      • 如果您选择条件结果为false,当上游节点的结果为false时,数据向下游发送。

      fef

    转换

    转换组件支持有多个下游组件(转换输出流程),则组件连接时需选择输入组件的数据发送方式

    通过上述操作步骤完成管道画布中一个管道脚本的开发。一个管道画布支持有多个管道脚本同时构建,同时您也可以在管道画布中右键单击执行如下操作。

    操作

    描述

    复制

    复制管道画布中已有的组件。

    粘贴

    将选复制的管道组件粘贴在管道画布中。

    删除

    删除选中的组件。

    圈选

    通过鼠标圈定选择多个组件。

    全选

    选中管道画布中的所有组件。

  7. 完成整个画布中管道的构建后,单击画布上方的保存图标。

  8. 单击画布上方的运行图标。

    如果组件中有变量配置时(例如bizdate),根据页面提示配置参数后,即可运行管道脚本。

步骤三:配置调度参数

在离线单条管道脚本开发页面,单击画布上方的调度配置,根据页面提示配置参数后,单击确定

调度配置页签

调度配置
  1. 配置基本信息区域的参数。

    系统自动生成的名称节点id节点类型不支持修改,支持修改任务的责任人描述

  2. 配置调度配置区域参数。

    参数

    描述

    时间属性

    选择时间属性时间属性包括:

    • 正常调度:按照调度周期的时间配置调度,并正常执行,通常任务默认选中该项。

    • 空跑调度:按照调度周期的时间配置调度,但都是空跑执行,即一调度到该任务便直接返回成功,没有真正的执行任务。

    暂停调度

    暂停调度选择后,即可暂停该任务的调度,会按照下面的调度周期时间配置调度,但是一旦调度到该任务会直接返回失败,不会执行。通常用于某个任务暂时不用执行,但后面还会继续使用的场景。

    调度周期

    调度周期可选择小时分钟

    • 调度,即调度任务每天自动运行一次。新建周期任务时,系统默认的时间周期为每天0点运行一次。您可以根据需要,单击图标,指定运行的时间点。

    • 调度,即调度任务每周的特定几天,在特定时间点自动运行一次。您可以根据需要,单击图标,指定运行的时间点。如果在没有被指定的日期时,为保证下游实例正常运行,系统会生成实例后直接设置为运行成功,而不会真正执行任何逻辑,也不会占用资源。

      例如,每周一、周二两天生成的实例会正常的调度执行,而周三、周四、周五、周六以及周日5天都是生成实例后直接设置为运行成功。

    • 调度,即调度任务在每月的特定几天,在特定时间点自动运行一次。您可以根据需要,单击图标,指定运行的时间点。如果在没有被指定的日期时,为保证下游实例正常运行,系统会每天生成实例后直接设置为运行成功,而不会真正执行任何逻辑,也不会占用资源。

      例如,调度系统会自动为任务生成实例并运行。每月7日生成的实例会正常的调度执行,其它日期每天都是生成实例并直接设为运行成功。

    • 小时调度,即每天指定的时间段内,调度任务按间隔时间数的时间间隔运行一次。或选择指定的时间点,调度系统会自动为任务生成实例并运行。

      例如,每天00:00~23:59的时间段内,每隔1小时会自动调度一次,因此调度系统会自动为任务生成实例并运行。

    • 分钟调度,即每天指定的时间段内,调度任务按间隔时间数的时间间隔运行一次。您可以根据需要,单击图标,指定运行的时间点。

      例如,每天00:00~23:59的时间段内,每隔5分钟会自动调度一次,因此调度系统会自动为任务生成实例并运行。

    cron表达式

    系统自动生成。

    最近的生成时间

    系统自动生成。

    依赖上周期

    根据业务场景分析是否需要选中依赖上周期。如果您选择,则需要选择依赖上个调度周期的节点:

    • 如果您选择了当前,则表示依赖当前节点的上个调度周期。

    • 如果您选择了自定义,则需在输入框中输入依赖上周期节点的名称关键字进行搜索节点。

    优先级

    您可以选择节点调度任务执行的优先级优先级包括:

    • 最低优先级

    • 低优先级

    • 中等优先级

    • 高优先级

    • 最高优先级

    参数配置

    节点参数配置是对代码中所用参数的具体赋值。您可以单击节点参数配置说明,查看Dataphin调度系统支持配置的节点参数及配置原则。

  3. 配置依赖关系区域参数。

    参数

    描述

    上游依赖

    上游依赖包括物理节点和逻辑表节点。系统自动解析管道任务中的逻辑表节点。执行如下操作,添加该节点任务调度时依赖的上游物理节点:

    1. 单击手动添加上游

    2. 新建上游依赖对话框中,输入所依赖节点的输出名称的关键字进行搜索节点。

      说明

      节点的输出名称是全局唯一的。

    3. 单击确定新增

    同时您还可以单击操作列下的fagaga图标,删除已添加的依赖节点。

    当前节点

    通过执行如下操作,设置当前节点的输出名称,根据需要您可以设置多个输出名称,供其他节点依赖使用:

    1. 单击手动添加输出

    2. 新增当前节点输出对话框中,填写输出名称。输出名称的命名规则请尽量统一,通常命名规则为项目名.表名,以标识本节点产出的表,同时其他节点可以更好地选择调度依赖关系。

    3. 单击确定新增

    同时您还可以对当前节点已添加的输出名称执行如下操作:

    • 单击操作列下的fagaga图标,删除已添加的输出名称。

    • 查看下游节点:

      • 如果数据开发模式为Dev-Prod模式,则需要发布后才可以查看下游节点。

      • 如果数据开发模式为Basic模式,则提交后即可查看下游节点。

通道配置页签

通道配置

参数

描述

容错配置

填写管道中允许的最大错误数。配置了容错配置的任务运行过程中会出现如下两种情况:

  • 管道运行过程中,如果各节点累计的错误数超过容错范围,则当前管道任务会失败。

  • 管道运行过程中,如果各节点累计的错误数在容错范围内,则任务继续运行。

全局并发度配置

选择整个管道脚本中组件的并发度。

JVM配置

填写JVM参数。

质量监控页签

质量监控

选中同步表质量监控后,需要配置监控规则,详情请参见创建数据表质量规则

配置了质量监控规则后,系统会自动为您监测数据表的质量。如果有质量风险,系统会自动报警,帮助及时了解资产质量状况。

步骤四:提交管道脚本

  1. 单击画布上方的保存图标,保存管道脚本。

  2. 单击画布上方的提交图标,在提交备注对话框,填写备注信息后,单击确定并提交

    说明

    提交管道脚本时,系统会校验您是否具有以下权限:

    • 输入组件中的数据源的读权限。

    • 输出组件中的数据源的写权限。

  3. (可选)

    发布离线单条管道脚本。

    • 如果您的开发模式是Dev-Prod,则需要发布已提交的离线单条管道脚本,详情请参见管理发布任务

    • 如果您的开发模式是Basic,则不需要发布已提交的离线单条管道脚本(提交后的离线单条管道脚本即可参与调度)。

阿里云首页 智能数据构建与管理 Dataphin 相关技术圈