离线任务属性配置概述

对于离线任务,若需要周期性调度运行,您需定义该任务的调度相关属性,包括调度周期、调度依赖、调度参数等。本文为您介绍离线任务属性与调度的相关内容。

注意事项

  • 系统仅支持调度类型为周期任务的离线计算任务进行调度配置。

  • 依赖关系是两个节点之间的先后运行顺序关系,同时上游节点的状态将影响其他下游节点的运行状态。

  • 配置了依赖关系的节点调度规则为:首先,上游节点运行完成后,才能调度下游节点。其次,根据节点设定的调度时间判断是否执行调度。

  • 您在设定的调度时间之前提交的调度配置,会在设定的调度时间之后生效。而在设定的调度时间之后配置的依赖关系,只能间隔一天再生成实例。

  • 任务的调度配置仅用于定义任务调度运行时的相关属性,任务需通过发布流程发布至生产环境后,才会根据该配置进行最终调度。

  • 调度时间仅定义任务预期执行时间,其实际执行时间还受上游执行情况控制,关于任务执行条件说明,详情请参见实例运行诊断

离线任务属性入口

  1. 在Dataphin首页,在顶部菜单栏选择研发 > 数据研发

  2. 开发页面的顶部菜单栏选择项目

  3. 在左侧导航栏中选择数据处理 > 计算任务,在计算任务列表中,单击目标任务名称。

  4. 在该任务页签下,单击右侧的属性,打开属性面板。

配置离线任务属性

在离线任务属性页面,您需根据下表配置任务的基本信息与调度相关属性。

配置项

描述

基本信息

包括任务名、ID、节点类型、开发负责人、运维责任人及描述。

  • 任务名:该任务创建时所填写的名称。

  • 节点ID:该节点的唯一标识,将在节点提交后生成。

  • 开发负责人:默认为当前用户, 可选当前项目所有成员。

    说明

    生产环境中不支持配置开发负责人,将以开发环境所配置信息为准。

  • 运维责任人:默认为节点的创建人。您也可选择当前项目中的成员为运维责任人。

为运行当前任务所分配的CPU和内存资源。

说明

仅Python、Shell、SPARK_JAR_ON_MAXCOMPUTE、SPARK_JAR_ON_HIVE、MAXCOMPUTE_MR和HADOOP_MR类型的计算任务支持此项配置。

Python三方包

选择需要引入的Python三方包。

说明
  • 仅Python和Shell类型的计算任务支持配置此项。

  • 在Python三方包中添加某个第三方Module后,需要在任务中声明引用后,才可以在代码中导入(import)该Module。可在计算任务属性 > Python三方包配置项中设置编辑引用的Module。

运行参数

用于定义节点调度时使用的参数。Dataphin提供内置参数并支持自定义参数,可供任务在调度时实现参数动态赋值。

说明

若您在编辑节点代码时,在代码中定义了变量,需在此处对该变量进行赋值。若未定义可无须进行定义。

调度属性

用于定义任务在生产环境的周期调度方式。

  • 调度类型:定义该任务所生成的示例在生产环境的运行状态。

  • 优先级:该任务的优先级。新建任务时,会从管理中心 > 研发平台 >节点任务相关设置 > 默认优先级中获取当前任务优先级的默认值。

    说明

    当该任务发布到生产环境或在Basic环境下提交后,编辑任务时优先级不可修改,需在生产环境下的运维中进行修改。此时优先级的值为生产环境的最新值。

  • 生效日期:定义该任务在什么时间段内调度。超过生效日期的任务将不再生成实例。

  • 调度周期:定义该任务的调度频率,即多久执行一次任务。

  • 条件调度:定义该任务调度的条件。可设置多组调度条件,系统按照从上往下的顺序评估条件,命中条件后即执行相应调度,并终止后续所有条件的评估。未命中任何条件时,执行默认调度配置。

调度依赖

用于定义该任务的上下游依赖关系。通过依赖关系有序调度运行上下游节点,即当上游节点运行成功后,下游节点才会启动运行,保障适时的产出有效业务数据。您可使用自动解析快速设置节点依赖,也可手动添加节点的依赖关系。

运行配置

用于定义任务运行超时时间和任务运行失败时的重跑策略,可杜绝因计算任务长时间资源占用造成资源浪费的同时提高计算任务运行的可靠性。

后续步骤

任务属性配置完成后,您可提交并发布至生产环境。后续可在生产环境进行任务的相关运维操作,详情请参见运维中心概述