离线单条管道即处理离线同步任务的一条管道脚本。本文为您介绍如何新建离线单条管道及相关运维配置。

步骤一 创建管道开发脚本

  1. 登录Dataphin控制台
  2. 在Dataphin控制台页面,选择工作区地域后,单击进入Dataphin>>
  3. 在Dataphin首页,单击研发
  4. 可选:在数据开发页面,单击项目名称后的test图标,选择数据开发的项目空间(DevBasic项目)。
    如果您当前访问的是DevBasic项目,且项目空间为您的数据开发空间,则不需要选择项目空间。
  5. 在数据开发页面,将鼠标悬停在顶部菜单栏的开发上,单击集成
  6. 在数据集成页面,您可以通过以下任何一种方式,进入创建管道开发脚本页面。
    • 将鼠标悬停在图标,单击离线单条管道ddd
    • 将鼠标悬停在ddd图标,单击离线单条管道sss
  7. 根据创建管道开发脚本对话框提示,配置参数。
    ddd
    参数 描述
    管道名称 填写管道名称。
    调度类型 选择管道的调度类型。调度类型包括:
    • 周期性节点指需定期执行的任务。
    • 手动节点指没有依赖关系,需手动触发的任务。
    描述 填写对离线单条管道的简单描述。
    选择目录 选择离线单条管道所在的文件夹。
  8. 单击确定,完成管道的创建。

步骤二 开发离线管道脚本

一个完整的离线管道由输入(>=1个)、转换(>=0个)、流程(>=0个)及输出(>=1个)组件组成。

  1. 进入离线单条管道脚本的开发页面,单击页面右上角的组件库,为您展示系统支持的输入转换流程输出组件。
    ddd
    组件类 包含的组件
    输入 MYSQLSQL ServerORACLEPostgreSQLVerticaDRDSFTPHDFSHiveMaxcomputeHbaseMongoDBLogicalTableADB for MySQL3.0ADB for PostgreSQL
    转换 字段选择字段计算过滤
    流程 限速条件分发
    输出 MYSQLSQL ServerORACLEPostgreSQLVerticaDRDSFTPHDFSHiveMaxcomputeHbaseMongoDBElacticSearchADB for MySQL2.0ADB for MySQL3.0ADB for PostgreSQL
  2. 根据您的业务场景,选择并配置输入组件。
    1. 单击输入前的dgd图标后,单击某个组件拖动到左侧的管道画布中。
    2. 将鼠标悬停在组件框内并右键单击,选择属性配置后,根据页面提示完成组件的基本配置,详情请参见组件库-输入组件。同时还支持复制删除组件及选择组件向下游节点数据发送方式
    fsfs
  3. 可选:根据您的业务场景,选择并配置转换组件。
    1. 单击转换前的dgd图标后,单击某个组件拖动到左侧的管道画布中。
    2. 将鼠标悬停在组件框内并右键单击,选择属性配置后,根据页面提示完成组件的基本配置,详情请参见组件库-转换组件。同时还支持 复制 删除组件及选择组件向下游节点 数据发送方式
  4. 可选:根据您的业务场景,选择并配置流程组件。
    1. 单击流程前的dgd图标后,单击某个组件拖动到左侧的管道画布中。
    2. 将鼠标悬停在组件框内并右键单击,选择属性配置后,根据页面提示完成组件的基本配置,详情请参见组件库-流程组件。同时还支持 复制 删除组件。
  5. 根据您的业务场景,选择并配置输出组件。
    1. 单击输出前的dgd图标后,单击某个组件拖动到左侧的管道画布中。
    2. 将鼠标悬停在组件框内并右键单击,选择属性配置后,根据页面提示完成组件的基本配置,详情请参见组件库-输出组件。同时还支持 复制 删除组件。
  6. 单击上游组件中的1后拖动并指向下游组件中的2处,形成有向连线。
    ddd组件连接时的上下游关系,请参见下表。
    组件 描述
    输入 输入的使用说明:
    • 输入组件不支持有上游节点。
    • 输入下游节点可以是转换输出流程
    • 如果输入组件有多个下游节点(输出转换),则组件连接时需选择输入组件的数据发送方式ddd
      • 复制:上游节点的数据根据下游节点数量进行等份复制,且每个下游节点的数据都是上游节点的全部数据。
      • 轮流分发:上游节点的数据根据下游节点数量进行轮流分发,且所有下游节点的数据之和等于上游节点的数据。
    输出 输出组件不支持有下游节点。
    流程 流程组件的使用说明:
    • 流程组件不支持作为离线管道的第一个或最后一个节点,但支持放置于管道脚本中间的任意位置。
    • 如果流程组件有多个下游节点(转换输出流程),则组件连接时需选择输入组件的数据发送方式
    • 如果流程选择条件分发组件,则组件连接时需选择分发的条件:
      • 如果您选择条件结果为true,当上游节点的结果为true时,数据向下游发送。
      • 如果您选择条件结果为false,当上游节点的结果为false时,数据向下游发送。
      fef
    转换 转换组件支持有多个下游组件(转换输出流程),则组件连接时需选择输入组件的数据发送方式
    通过上述操作步骤完成管道画布中一个管道脚本的开发。一个管道画布支持有多个管道脚本同时构建,同时您也可以在管道画布中右键单击执行如下操作。
    操作 描述
    复制 复制管道画布中已有的组件。
    粘贴 将选复制的管道组件粘贴在管道画布中。
    删除 删除选中的组件。
    圈选 通过鼠标圈定选择多个组件。
    全选 选中管道画布中的所有组件。
  7. 完成整个画布中管道的构建后,单击右上的faga保存管道脚本,保存成功后管道脚本的状态为草稿
  8. 单击左上角待运行前的ddg图标,如果组件中有变量配置时(例如bizdate),根据页面提示配置参数后,单击确定,即可运行管道脚本。

步骤三 配置调度参数

  1. 在离线单条管道脚本开发页面,单击页面左上方的调度配置,根据页面提示配置参数。
    1. 配置基本信息区域参的数。
      系统自动生成的节点名称节点id节点类型负责人,不支持修改。faga
      参数 描述
      描述 填写对调度配置的简单描述。
      优先级 您可以选择节点调度任务执行的优先级优先级包括:
      • 最低优先级
      • 低优先级
      • 中等优先级
      • 高优先级
      • 最高优先级
      参数配置 节点参数配置是对代码中所用参数的具体赋值。您可以单击节点参数配置说明,查看Dataphin调度系统支持配置节从而支持节点调度时,参数值以变量替换执行点的时间参数及配置原则,进行配置参数。
    2. 配置调度配置区域参数。
      fagaga
      参数 描述
      时间属性 选择时间属性时间属性包括:
      • 正常调度:按照调度周期的时间配置调度,并正常执行,通常任务默认选中该项。
      • 空跑调度:按照调度周期的时间配置调度,但都是空跑执行,即一调度到该任务便直接返回成功,没有真正的执行任务。
      • 暂停调度:暂停调度后,会按照下面的调度周期时间配置调度,但是一旦调度到该任务会直接返回失败,不会执行。通常用于某个任务暂时不用执行,但后面还会继续使用的场景。
      调度周期 调度周期可选择小时分钟
      • 调度,即调度任务每天自动运行一次。新建周期任务时,系统默认的时间周期为每天0点运行一次。您可以根据需要,单击图标,指定运行的时间点。
      • 调度,即调度任务每周的特定几天,在特定时间点自动运行一次。您可以根据需要,单击图标,指定运行的时间点。如果在没有被指定的日期时,为保证下游实例正常运行,系统会生成实例后直接设置为运行成功,而不会真正执行任何逻辑,也不会占用资源。
        例如,每周一、周二两天生成的实例会正常的调度执行,而周三、周四、周五、周六以及周日5天都是生成实例后直接设置为运行成功。gaga
      • 调度,即调度任务在每月的特定几天,在特定时间点自动运行一次。您可以根据需要,单击图标,指定运行的时间点。如果在没有被指定的日期时,为保证下游实例正常运行,系统会每天生成实例后直接设置为运行成功,而不会真正执行任何逻辑,也不会占用资源。
        例如,调度系统会自动为任务生成实例并运行。每月7日生成的实例会正常的调度执行,其它日期每天都是生成实例并直接设为运行成功。gaga
      • 小时调度,即每天指定的时间段内,调度任务按间隔时间数的时间间隔运行一次。或选择指定的时间点,调度系统会自动为任务生成实例并运行。
        例如,每天00:00~23:59的时间段内,每隔1小时会自动调度一次,因此调度系统会自动为任务生成实例并运行。gaaga
      • 分钟调度,即每天指定的时间段内,调度任务按间隔时间数的时间间隔运行一次。您可以根据需要,单击图标,指定运行的时间点。
        例如,每天00:00~23:59的时间段内,每隔5分钟会自动调度一次,因此调度系统会自动为任务生成实例并运行。gagaga
      依赖上周期 根据业务场景分析是否需要选中依赖上周期。如果您选中了,则需要选择依赖上个调度周期的节点:
      • 如果您选择了当前,则表示依赖当前节点的上个调度周期。
      • 如果您选择了自定义,则需在输入框中输入依赖上周期节点的名称关键字进行搜索节点。
    3. 配置依赖关系区域参数。
      fagfaa
      参数 描述
      上游依赖 通过执行如下操作,完成添加该节点任务调度时依赖的上游节点:
      1. 单击新建上游依赖
      2. 新建上游依赖对话框中,输入所依赖节点的输出名称的关键字进行搜索节点。
        说明 节点的输出名称是全局唯一的。
      3. 单击确定新增
      同时您还可以单击操作列下的fagaga图标,删除已添加的依赖节点。
      当前节点 通过执行如下操作,设置当前节点的输出名称,根据需要您可以设置多个输出名称,供其他节点依赖使用:
      1. 单击新增
      2. 新增当前节点输出对话框中,填写输出名称。输出名称的命名规则请尽量统一,通常命名规则为项目名.表名,以标识本节点产出的表,同时其他节点可以更好地选择调度依赖关系。
      3. 单击确定新增
      同时您还可以对当前节点已添加的输出名称执行如下操作:
      • 单击操作列下的fagaga图标,删除已添加的输出名称。
      • 如果该节点提交或发布后,则单击操作列下的图标,查看下游节点。
  2. 完成参数配置后,单击调度配置对话框下方的确定,完成离线单条管道调度参数的配置。

步骤四 配置通道

  1. 单击页面左上方的通道配置,根据页面提示完成参数配置后并单击确定
    vgaaga
    参数 描述
    容错配置 填写管道中允许的最大错误数。配置了容错配置的任务运行过程中会出现如下两种情况:
    • 管道运行过程中,如果各节点累计的错误数超过容错范围,则当前管道任务会失败。
    • 管道运行过程中,如果各节点累计的错误数在容错范围内,则任务继续运行。
    全局并发度配置 选择整个管道脚本中组件的并发度。
    JVM配置 填写JVM参数。
  2. 单击页面右上方的gaga图标,保存管道脚本。
  3. 单击页面右上方的dggd图标,提交管道脚本。
    说明 提交管道脚本时,系统会校验您是否具有以下权限:
    • 输入组件中的数据源的读权限。
    • 输出组件中的数据源的写权限。
  4. 可选:发布离线单条管道脚本。
    • 如果您的开发模式是Dev-Prod,则需要发布已提交的离线单条管道脚本,详情请参见发布任务
    • 如果您的开发模式是Basic,则不需要发布已提交的离线单条管道脚本(提交后的离线单条管道脚本就可以参与调度)。