本文为您介绍如何基于Dataphin新建SPARK_JAR_ON_MAX_COMPUTE类型的任务。
背景信息
SPARK_JAR_ON_MAX_COMPUTE任务中引用到的JAR和PYTHON文件需要提前创建,因此您需要先在资源管理中上传JAR和PYTHON文件,然后在SPARK_JAR_ON_MAX_COMPUTE任务中进行引用。具体操作,请参见上传资源及引用。
前提条件
计算引擎中已开启Spark任务,如何开启,请参见安全设置。
操作步骤
在Dataphin首页,单击顶部菜单栏中的研发。默认进入开发页面。
按照下图操作指引,进入新建SPARK_JAR_ON_MAX_COMPUTE任务对话框。
选择项目(Dev-Prod 模式需要选择环境)->单击计算任务->单击新增图标->单击SPARK_JAR_ON_MAX_COMPUTE。
编写并运行代码。
在新建SPARK_JAR_ON_MAX_COMPUTE任务对话框中,配置参数。
参数
描述
任务名称
填写离线计算任务的名称。最长允许256个字符,不支持特殊字符
|\/:?<>*"
。调度类型
选择任务的调度类型。调度类型包括:
周期任务,自动参与系统的周期性调度。
手动任务,需要手动触发任务的运行。
选择目录
选择任务所存放的目录。若未创建目录,您可按照下图操作指引,填写目录名称和选择目录所在位置进行创建。
使用模板
支持使用创建的离线代码模板以实现高效研发,模板任务代码为只读不可编辑,您只需配置模板参数即可完成代码研发。模板创建,请参见新建离线计算模板。
描述
填写任务的简单描述,1000个字符以内。
单击确定。
在代码编写页面,编写SPARK_JAR_ON_MAX_COMPUTE离线计算任务的代码。
代码示例如下。
@resource_reference{"spark.py"} spark-submit --deploy-mode cluster --conf spark.hadoop.odps.task.major.version=cupid_v2 --conf spark.hadoop.odps.end.point=http://service.cn.maxcompute.aliyun.com/api --conf spark.hadoop.odps.runtime.end.point=http://service.cn.maxcompute.aliyun-inc.com/api --master yarn spark.py
说明resource_reference{}
为引用JAR或PYTHON文件资源包。单击页面上方的运行,即可运行代码。
单击页面侧边栏属性,配置任务属性。属性包括任务的基本信息、参数配置、调度属性(周期任务)、调度依赖(周期任务)、运行配置、资源配置。
基本信息
用于定义调度任务的名称、对应的责任人、描述等基本信息。配置说明,请参见配置任务基本信息。
参数配置
若您的任务中调用了参数变量,您可以在属性中对参数进行赋值,从而支持节点调度时,参数变量可以自动被替换为相应的变量值。配置说明,请参见参数配置及使用节点参数。
调度属性(周期任务)
如果离线计算任务的调度类型为周期任务,除了基本信息外,还需要配置任务的调度属性。配置说明,请参见离线任务调度属性配置。
调度依赖(周期任务)
如果离线计算任务的调度类型为周期任务,除了基本信息外,还需要配置任务的调度依赖。配置说明,请参见配置离线任务调度依赖。
运行配置
您可根据业务场景为离线计算任务配置任务级的运行超时时间和任务运行失败时的重跑策略。未配置则默认继承租户级设置的默认值。配置说明,请参见计算任务运行配置。
资源配置:您可为当前计算任务配置调度资源组,计算任务调度时将占用该资源组的资源配额。配置说明,请参见计算任务资源配置。
在代码编写页面,保存并提交SPARK_JAR_ON_MAX_COMPUTE任务。
单击页面上的图标,保存代码。
单击页面右上方的图标,提交代码。
在提交备注页面,填写备注信息。
单击确定并提交。