本文为您介绍如何基于Dataphin构建HIVE_SQL类型的离线计算任务。
背景信息
HIVE_SQL计算任务适用于对已有数据进行加工处理,生成符合业务场景需求的数据的场景。
操作步骤
在Dataphin首页的顶部菜单栏中,选择研发 > 数据研发。
在开发页面的顶部菜单栏选择项目(Dev-Prod模式需要选择环境)。
在左侧导航栏中选择数据处理 > 计算任务,在计算任务列表中单击图标,选择HIVE_SQL。
在新建HIVE_SQL任务对话框中,配置以下参数。
参数
描述
任务名称
填写离线计算任务的名称。
长度不超过256个字符,不支持竖线(|)、正斜线(/)、反斜线(\)、半角冒号(:)、半角问号(?)、尖括号(<>)、星号(*)和半角引号(")。
调度类型
选择任务的调度类型。调度类型包括:
周期任务:自动参与系统的周期性调度。
手动任务:需要手动触发任务的运行。
选择目录
选择任务所存放的目录。
若未创建目录,您可以新建文件夹,操作方法如下:
在页面左侧计算任务列表上方单击图标,打开新建文件夹对话框。
在新建文件夹对话框中输入文件夹名称并根据需要选择目录位置。
单击确定。
使用模板
单击使用模板开关来选择是否使用代码模板。若开启使用模板,则还需选择模板和模板版本。
引用代码模板以实现高效研发,模板任务代码为只读不可编辑,您只需配置模板参数即可完成代码研发。更多信息,请参见新建离线计算模板。
描述
填写任务的简单描述,1000个字符以内。
单击确定。
在当前HIVE_SQL任务页签下的代码编辑区域,编写HIVE_SQL离线计算任务的代码。代码编写完成后,单击代码编辑区域上方的预编译,系统帮助您检查编写的HIVE_SQL代码的语法。
代码预编译完成后,单击代码编辑区域上方的运行。
单击页面侧边栏属性,配置任务属性。属性包括任务的基本信息、运行参数、调度属性(周期任务)、调度依赖(周期任务)、运行配置、资源配置。
基本信息
用于定义调度任务的名称、对应责任人、描述等基本信息。配置说明,请参见配置任务基本信息。
运行参数
若您的任务中调用了参数变量,您可以在属性中对参数进行赋值,从而支持节点调度时,参数变量可以自动被替换为相应的变量值。配置说明,请参见参数配置及使用节点参数。
调度属性(周期任务)
如果离线计算任务的调度类型为周期任务,除了基本信息外,还需要配置任务的调度属性。配置说明,请参见配置调度属性。
调度依赖(周期任务)
如果离线计算任务的调度类型为周期任务,除了基本信息外,还需要配置任务的调度依赖。配置说明,请参见配置调度依赖。
运行配置
您可以根据业务场景为离线计算任务配置任务级的运行超时时间和任务运行失败时的重跑策略。未配置则默认继承租户级设置的默认值。配置说明,请参见计算任务运行配置。
资源配置
您可以为当前计算任务配置调度资源组,计算任务调度时将占用该资源组的资源配额。配置说明,请参见计算任务资源配置。
在当前HIVE_SQL任务页签下,保存并提交当前任务。
单击代码编辑区域上方的图标,保存代码。
单击代码编辑区域上方的图标,提交代码。
在提交详情页面中,需确认提交内容和前置检查的结果,并填写备注信息。更多信息,请参见离线计算任务提交说明。
确认完成后,单击确定并提交。
后续步骤
附录:切换任务类型
若您在Hadoop计算源中已开启Impala任务,支持将HIVE_SQL任务切换为IMPALA_SQL任务。因Impala基于内存等因素,在查询分析方面,IMPALA_SQL任务具备更好的使用体验。具体操作步骤如下:
在Dataphin首页的顶部菜单栏中,选择研发 > 数据研发。
在开发页面的顶部菜单栏选择项目(Dev-Prod模式需要选择环境)。
在左侧导航栏中选择数据处理 > 计算任务,在计算任务列表中选择目标HIVE_SQL任务。
在HIVE_SQL任务后单击图标,选择修改类型。
在修改类型对话框中选择IMPALA_SQL,完成后单击确定,即可切换任务类型。