HIVECLI

更新时间: 2023-11-07 16:09:26

HIVECLI任务类型用于执行SQL脚本语句或者SQL任务文件。本文为您介绍创建HIVECLI类型任务时涉及的参数,并提供了HIVECLI任务的示例。

参数说明

参数

说明

节点名称

任务的名称。一个工作流定义中的节点名称是唯一的。

运行标志

  • 正常(默认):运行工作流时执行该任务。

  • 禁止执行:运行工作流不会执行该任务。

描述

节点的描述。

任务优先级

流程运行的优先级。支持以下级别:

  • HIGHEST:最高。

  • HIGH:高。

  • MEDIUM(默认):中。

  • LOW:低。

  • LOWEST:最低。

失败重试次数

工作流运行失败自动重试的次数。

失败重试间隔

每次失败重试的间隔。单位:分。

延时执行时间

延时执行时间,默认为0,即立即执行,设置了该值后才执行延时操作。单位:分。

超时告警

该开关默认关闭。打开超时告警开关,勾选超时告警超时失败,当任务超过超时时长后,会发送告警邮件并且任务执行失败。

提交到Yarn执行

警告

该模式下,作业会被提交到EMR集群的YARN中执行,会直接影响EMR集群的文件、环境等,请谨慎操作。

该开关默认打开。您还可以选择配置以下参数:

  • 调度队列:指定作业提交的YARN队列。

  • 任务执行容器内存(MB):指定作业执行容器的内存。默认值为1024。

  • 虚拟核数:指定作业执行容器的虚拟核数(vCores)。默认值为1。

  • 优先级:指定作业执行容器的优先级(0-100)。默认值为0,数值越大,优先级越高。

  • 执行用户:默认执行用户为dolphinscheduler。标准集群(非高安全集群),如果需要设置执行用户,请确保YARN服务包含如下配置项:

    • yarn.nodemanager.container-executor.class=org.apache.hadoop.yarn.server.nodemanager.LinuxContainerExecutor

    • yarn.nodemanager.linux-container-executor.nonsecure-mode.limit-users=false

程序类型

支持以下类型:

  • 脚本输入(默认):使用该程序类型,需要在脚本中填写SQL语句。

  • 选择资源中心文件::使用该程序类型,需要在资源中选择Hive SQL文件。

资源

任务执行时所需的资源文件。如果其他参数中引用了资源文件,需要选择在资源中心文件管理页面,创建或者上传的文件。

自定义参数

任务自定义参数,会替换脚本中${变量}的内容。

前置任务

设置当前任务的前置(上游)任务。

任务示例

使用脚本输入

该示例演示了如何直接执行Hive SQL脚本语句。

本示例的脚本内容如下。

create table if not exists hive_table(id bigint, name string);
insert into hive_table values (1,'name1');
select * from hive_table;
说明

如果读表或者删除表时任务运行失败,日志报错信息中包含java.net.UnknownHostException信息,处理方法请参见Hive读表或者删除表时报错java.lang.IllegalArgumentException: java.net.UnknownHostException: emr-header-1.xxx

使用资源中心中的Hive SQL文件

该示例演示了如何使用资源中心中的Hive SQL文件来执行任务。在本例中,先在资源中心中定义了sql类型的文件(例如,hive.sql),然后在程序类型下拉列表中选择选择资源中心文件,在资源下拉列表中选择在资源中心中定义的sql类型文件。

image.png

阿里云首页 开源大数据平台 E-MapReduce 相关技术圈