新建离线计算模板

Dataphin支持创建离线计算模板。后续在开发任务时,可以引用创建的离线计算模板以提高任务的研发效率。本文为您介绍如何创建、配置并提交离线计算模板。

背景信息

当多个任务的代码逻辑相似,只有部分配置项或输入参数不同时,您可以将代码写入到离线计算模板中,并将不同的配置项和输入参数定义为模板变量参数。后续任务引用了该离线计算模板后,可以给离线计算模板中的模板变量参数赋值,以实现代码公共逻辑的单点维护和快速复用,提升了任务代码研发的效率。

使用限制

  • 仅支持超级管理员项目管理员项目开发者的用户创建、配置并提交离线计算模板。

    如何获取项目管理员和开发者角色,请参见操作步骤

操作步骤

  1. 在Dataphin首页,在顶部菜单栏选择研发 > 数据研发

  2. 开发页面的顶部菜单栏选择项目(Dev-Prod 模式需要选择环境)。

  3. 在左侧导航栏中选择数据处理 > 计算模板,在计算模板列表中单击image图标,选择离线计算模板

  4. 新建离线计算模板对话框中,配置以下参数。

    参数

    描述

    模板名称

    命名规则如下:

    • 支持英文字母等大小写、数字、下划线(_)和短划线(-)。

    • 全局唯一。

    • 不能超过64个字符。

    节点类型

    支持Shell和Python,且根据不同离线计算引擎,支持创建不同离线计算模板。

    说明

    节点类型选择为SHELLPYTHON时,可选择配置Python三方包

    在Python三方包中添加某个第三方Module后,需要在任务中声明引用后,才可以在代码中导入(import)该Module。可在计算任务属性 > Python三方包配置项中设置编辑引用的Module。

    • MaxCompute计算引擎

      • MAX_COMPUTE_SQL

      • SPARK_JAR_ON_MAX_COMPUTE

      • MAX_COMPUTE_MR

    选择目录

    默认选择为离线计算模板。同时您也可以在计算模板页面创建目标文件夹后,选择该目标文件夹为计算模板的目录。新建文件夹的操作如下:

    1. 在计算模板列表上方单击image图标,打开新建文件夹对话框。

    2. 新建文件夹对话框中输入文件夹名称、选择离线类型再根据需要选择目录位置。

    3. 单击确定

    描述

    填写对离线计算模板简单的描述,1000个字符以内。

  5. 单击确定

  6. 在离线计算模板的代码开发页面,开发离线计算的模板代码。

    支持定义模板变量参数,格式为@@{模板变量参数名称} ,模板变量参数名称只能包含字母、数字和下划线(_)且只能以字母开头。例如@@{variable}

    image.png

  7. 完成离线计算模板的代码开发后,单击页面左上方的image按钮,并在参数填写对话框中填写参数值。

  8. 单击确定

  9. 在离线计算模板的代码开发页面,单击右侧属性

  10. 属性面板中,配置参数。

    参数

    描述

    基本信息

    描述

    填写离线计算模板的简单描述。

    Python三方包

    选择需要引入的Python三方包。更多信息,请参见安装Python Module

    说明

    在Python三方包中添加某个第三方Module后,需要在任务中声明引用后,才可以在代码中导入(import)该Module。

    参数配置

    参数说明

    填写代码中的参数说明,便于开发者理解。

    默认值

    为代码中的参数赋值。后续您可以在引用了该模板的任务中修改该参数值,运行任务后即可生效。

    参数加密

    开启参数加密后,参数默认值将以密文形式存储,以保护敏感数据。后续在引用该模板的任务中也是无法查看明文的参数默认值,任务运行时Dataphin会自动解密参数默认值。

    关闭参数加密后,已配置的参数默认值将自动清空。

  11. 单击确定,完成离线计算模板的配置。

  12. 在离线计算模板的代码开发页面,单击页面上方的image按钮,并在提交备注对话框中填写备注信息。

  13. 单击确定并提交

后续步骤

基于已创建的离线计算模板创建对应的任务。具体操作,请参见: