文档

创建PYTHON计算任务

更新时间:

为了满足丰富的Python应用场景,Dataphin支持创建可以使用Python语法的PYTHON计算任务。本文为您介绍如何基于Dataphin新建PYTHON计算任务。

使用限制

Python 3.7无法向下兼容Python 2.7,无法直接升级历史的Python 2任务。

2.9.3版本后,Dataphin默认支持研发Python 3.7计算任务。系统仅支持草稿状态的Python任务修改版本。

背景信息

Python 3.7更能满足更多样化的大数据处理的诉求,例如list.clear()。Python 2.7和Python 3.7的更多信息,请参见Python

操作步骤

  1. 请参见数据开发入口,进入数据开发页面。

  2. 按照下图指引,进入新建PYTHON任务对话框。

    image
  3. 新建PYTHON任务对话框,配置参数。

    参数

    描述

    任务名称

    填写代码任务的名称。最长允许256个字符,不支持特殊字符:|\/:?<>*"

    调度类型

    选择任务的调度类型。调度类型包括:

    • 周期任务:自动参与系统的周期性调度。

    • 手动任务:需要手动触发任务的运行。

    引用模板

    引用代码模板以实现高效研发,模板任务代码为只读不可编辑,您只需配置模板参数即可完成代码研发。

    选择目录

    选择代码任务的目录。

    描述

    填写对任务的简单描述。

  4. 单击确定

  5. 在Python任务代码编写页面,选择需要创建的Python任务版本后,编写代码。

    image
    说明
    • 开发Python计算任务时,通常需要根据业务场景安装所需资源包。Dataphin已经预制通用资源包至系统内,您在开发代码过程中,只需要在代码开始部分添加import 资源包名语句即可,例如import configparser。Dataphin已预制资源包,详情请参见附录:Python预置资源包

    • 在开发Python计算任务时,建议您在Python文件前两行对编码进行主动注释 ,防止执行代码时使用系统编码,导致执行结果报错。

    • 若您需要在Python中引入上传的资源文件。请参见上传资源及引用

  6. 单击页面右上角的运行,可运行代码。

  7. 单击页面侧边栏属性,配置任务属性。属性包括任务的基本信息参数配置调度属性(周期任务)、调度依赖(周期任务),运行配置资源配置

    • 基本信息

      用于定义调度任务的名称、对应责任人、描述等基本信息。详情请参见配置任务基本信息

    • 参数配置

      若您的任务中调用了参数变量,您可在属性中对参数进行赋值,从而支持节点调度时,参数变量可以自动被替换为相应的变量值。配置说明,请参见:参数配置及使用节点参数

    • 调度属性(周期任务)

      如果离线计算任务的调度类型为周期任务,除属性基本信息外,还需配置任务的调度属性。配置说明,请参见:离线任务调度属性配置

    • 调度依赖(周期任务)

      如果离线计算任务的调度类型为周期任务,除属性基本信息外,还需配置任务的调度依赖。配置说明,参见配置离线任务调度依赖

    • 运行配置

      您可根据业务场景为离线计算任务配置任务级的运行超时时间和任务运行失败时的重跑策略。未配置则默认继承租户级设置的默认值。配置说明,请参见:计算任务运行配置

  8. 在代码编写页面,保存并提交SQL任务。

    1. 单击页面上的image图标,保存代码。

    2. 单击页面右上方的image图标,提交代码。

  9. 提交备注页面,填写备注信息。

  10. 单击确定并提交

    说明
    • 为确保数据安全,若您开发的Python任务中代码包含from dataphin import hivecimport dataphin, 则提交后将触发代码审核,并自动为您生成代码审核申请工单,审核通过后才正常提交。

    • 代码审核人为当前项目的项目管理员(多个项目管理员时,任意一个审批通过即可正常提交)。

后续步骤

  • 如果您的开发模式是Dev-Prod模式,则需要发布Python任务。更多信息,管理发布任务

  • 如果您的开发模式是Basic模式,则提交成功后的Python任务,即可参与生产环境的调度。您可前往运维中心查看您发布的任务。更多信息,请参见运维中心概述

  • 本页导读 (0)
文档反馈