Dataphin支持创建离线计算模板。后续在开发任务时,可以引用创建的离线计算模板以提高任务的研发效率。本文为您介绍如何创建、配置并提交离线计算模板。
背景信息
当多个任务的代码逻辑相似,只有部分配置项或输入参数不同时,您可以将代码写入到离线计算模板中,并将不同的配置项和输入参数定义为模板变量参数。后续任务引用了该离线计算模板后,可以给离线计算模板中的模板变量参数赋值,以实现代码公共逻辑的单点维护和快速复用,提升了任务代码研发的效率。
通常每个任务有独立的运行资源,大批量任务同时运行时会导致运行资源占用率高,影响任务运行的并发性。Dataphin支持引用了同一个离线计算模板的多个任务可以共享运行资源,以保障其他任务正常运行。您需要为离线计算模板开启共享运行资源开关,后续引用了该模板的多个任务可以共享运行在同一个资源上,其他任务就可以使用Dataphin剩余的资源。
前提条件
如果后续需要为离线计算模板开启共享运行资源,则在开始执行操作前请您确认已开启全局共享资源开关。如何开启全局共享资源开关,请参见运行设置。
使用限制
仅支持超级管理员、项目管理员、项目开发者的用户创建、配置并提交离线计算模板。
如何获取项目管理员和开发者角色,请参见添加项目成员。
仅支持超级管理员和系统管理员开启离线计算模板的共享运行资源开关。
操作步骤
在Dataphin首页,在顶部菜单栏选择研发 > 数据研发。
在开发页面的顶部菜单栏选择项目(Dev-Prod 模式需要选择环境)。
在左侧导航栏中选择数据处理 > 计算模板,在计算模板列表中单击图标,选择离线计算模板。
在新建离线计算模板对话框中,配置以下参数。
参数
描述
模板名称
命名规则如下:
支持英文字母等大小写、数字、下划线(_)和短划线(-)。
全局唯一。
不能超过64个字符。
节点类型
支持Shell和Python,且根据不同离线计算引擎,支持创建不同离线计算模板。
说明当节点类型选择为SHELL或PYTHON时,可选择配置Python三方包。
在Python三方包中添加某个第三方Module后,需要在任务中声明引用后,才可以在代码中导入(import)该Module。可在计算任务属性 > Python三方包配置项中设置编辑引用的Module。
MaxCompute计算引擎
MAX_COMPUTE_SQL
SPARK_JAR_ON_MAX_COMPUTE
MAX_COMPUTE_MR
Hadoop(Hive)计算引擎
HIVE_SQL
IMPALA_SQL
说明需已配置并开启Impala。
SPARK_JAR_ON_HIVE
HADOOP_MR
TDH Inceptor计算引擎
INCEPTOR_SQL
SPARK_JAR_ON_HIVE
HADOOP_MR
ADB for PostgreSQL计算引擎
ADB_PG_SQL
StarRocks计算引擎
STARROCKS_SQL
ArgoDB计算引擎
ARGODB_SQL
选择目录
默认选择为离线计算模板。同时您也可以在计算模板页面创建目标文件夹后,选择该目标文件夹为计算模板的目录。新建文件夹的操作如下:
在计算模板列表上方单击图标,打开新建文件夹对话框。
在新建文件夹对话框中输入文件夹名称、选择离线类型再根据需要选择目录位置。
单击确定。
描述
填写对离线计算模板简单的描述,1000个字符以内。
单击确定。
在离线计算模板的代码开发页面,开发离线计算的模板代码。
支持定义模板变量参数,格式为
@@{模板变量参数名称}
,模板变量参数名称只能包含字母、数字和下划线(_)且只能以字母开头。例如@@{variable}
。完成离线计算模板的代码开发后,单击页面左上方的按钮,并在参数填写对话框中填写参数值。
单击确定。
在离线计算模板的代码开发页面,单击右侧属性。
在属性面板中,配置参数。
参数
描述
基本信息
描述
填写离线计算模板的简单描述。
Python三方包
选择需要引入的Python三方包。更多信息,请参见安装及管理Python三方包。
说明在Python三方包中添加某个第三方Module后,需要在任务中声明引用后,才可以在代码中导入(import)该Module。
运行配置
共享运行资源
开启共享运行资源后,引用该模板的任务实例可以共享运行资源,以节约运行资源。该操作仅限超级管理员执行。
重要模板的共享运行资源配置,须在运维(元仓)租户中开启全局共享资源,否则不支持配置。且引用该模板创建的计算任务为独享资源任务。具体操作,请参见运行设置。
参数配置
参数说明
填写代码中的参数说明,便于开发者理解。
默认值
为代码中的参数赋值。后续您可以在引用了该模板的任务中修改该参数值,运行任务后即可生效。
参数加密
开启参数加密后,参数默认值将以密文形式存储,以保护敏感数据。后续在引用该模板的任务中也是无法查看明文的参数默认值,任务运行时Dataphin会自动解密参数默认值。
关闭参数加密后,已配置的参数默认值将自动清空。
资源配置
调度资源组
任务调度运行时需要消耗调度资源。您可指定引用模板的每个任务生成的实例可使用的调度资源组,实例调度时会从占用指定资源组的资源配额,如果指定的资源组可用资源不足,则会进入等待调度资源状态。不同资源组之间的资源相互隔离互不影响,以保证调度稳定性。
开启共享运行资源后,不支持指定自定义资源组。引用模板所创建的任务为共享资源任务。共享资源任务默认配置共享调度资源池以支持所有共享资源任务的调度下发,如需修改共享资源池可支持的任务并发上限,请联系元仓系统管理员进行修改。
关闭共享运行资源后,支持指定自定义资源组。设置的调度资源组仅支持选择使用场景为任务日常调度且与当前任务所属项目有关联关系的资源组。具体操作,请参见资源组配置。
重要引用模板创建的任务仅支持在模板上配置调度资源组。
如果选择了项目默认资源组,将根据项目默认资源组的配置修改自动更新。
单击确定,完成离线计算模板的配置。
在离线计算模板的代码开发页面,单击页面上方的按钮,并在提交备注对话框中填写备注信息。
单击确定并提交。
后续步骤
基于已创建的离线计算模板创建对应的任务。具体操作,请参见: