Hive开发手册

本文介绍如何在E-MapReduce集群中开发Hive作业流程。在Hive中使用OSS 在Hive中读写OSS时,先创建一个external的表。CREATE EXTERNAL TABLE eusers(userid INT)LOCATION 'oss:/emr/users';使用示例 Hive作业流程示例如下:示例1 编写如下...

常见问题

说明 对于Hive作业报错或其他异常问题请参见 Hive作业异常排查及处理。对于Hive Metastore和HiveServer等服务相关的异常请参见 Hive服务异常排查及处理。作业长时间处于等待状态,如何处理?Map端是否读取了小文件?Reduce Task任务耗时,...

查看Spark监控

查看作业监控 您可以通过作业列表或者作业尝试列表查看作业监控。作业列表查看作业监控。登录 Data Lake Analytics管理控制台。单击 Serverless Spark>作业管理。在 作业列表 中,单击目标作业 操作,选择 监控。说明 作业监控 的监控项...

监控作业

提交作业到E-HPC集群后,您可以在控制台查看作业监控数据,包括运行、提交、排队和完成作业数,便于您了解集群内作业的运行情况,及时调整集群规模和作业任务,提升集群工作效率。前提条件 支持作业监控的集群需满足以下条件:调度器为PBS...

Hive作业异常排查及处理

本文介绍Hive作业异常的排查方法和解决方法。异常排查 如果客户端遇到作业异常或性能等问题,您可以按照如下步骤进行排查:查看Hive客户端日志。Hive CLI命令行提交的作业客户端日志位于集群或Gateway节点的/tmp/hive/$USER/hive.log 或者/...

Hive作业调优

您可以通过调整内存、CPU和Task个数等,实现对Hive作业的调优。本文为您介绍如何调优Hive作业。作业调优方案 作业调优方向 调优方案 参数调优 内存参数 CPU参数 Task数量优化 并行运行 Fetch task 开启向量化 合并小文件 代码优化 代码优化...

Hive访问TableStore数据

本文通过示例为您介绍EMR Hive作业如何处理TableStore中的数据。前提条件 已创建DataLake集群,详情请参见 创建集群。已登录集群,详情请参见 登录集群。已获取下方JAR包并上传到集群。JAR包名称 获取方法 参考下载链接 emr-tablestore-X.X...

项目空间运维与监控

其中包含作业总览、作业运行记录、工作流记录、流式作业监控和审计日志监控等功能,全方位提升用户运维效率。作业运维 这里我们模拟一个错误作业作为示例,给出项目空间在对该作业运维的操作。日志监控 当我们在项目空间中运行测试作业时,...

DataFlow集群通过Hive Catalog连接数据湖元数据DLF

操作流程 步骤一:数据准备 步骤二:DataFlow集群连接DLF读取Hive全量数据 步骤一:数据准备 下载Hive作业需要的 测试数据 至OSS任意空目录,数据上传目录将作为后续的外表地址使用。本示例中上传目录为 oss:/<yourBucketName>/hive/...

管理Hive Catalog

hive-site.xml core-site.xml hdfs-site.xml mapred-site.xml 其他文件,例如Hive作业使用的压缩包。创建Hive Catalog 完成前面的Hive元数据配置后,您可以创建Hive Catalog,支持UI与SQL命令两种方式配置Hive Catalog,推荐使用UI方式配置...

作业超时监控告警

MaxCompute支持通过配置阈值报警规则,监控作业运行时长。当作业运行超时后,系统会将报警信息发送至报警联系人,助力及时识别异常作业,提升运维效率。本文为您介绍作业超时报警的监控指标、配置方法及处理报警方式。前提条件 在配置作业...

Hive作业配置

在 新建作业 对话框中,输入 作业名称 和 作业描述,从 作业类型 下拉列表中选择 Hive 作业类型。表示创建的作业是一个Hive作业。这种类型的作业,实际是通过以下方式提交Hive作业运行。hive[user provided parameters]单击 确定。编辑作业...

Hive SQL作业配置

本文介绍如何配置Hive SQL类型的作业。前提条件 已创建好项目,详情请参见 项目管理。操作步骤 进入数据开发的项目列表页面。通过阿里云账号登录 阿里云E-MapReduce控制台。在顶部菜单栏处,根据实际情况选择地域 和资源组。单击上方的 ...

监控报警

监控报警方案 MaxCompute支持通过如下方式实现监控报警功能:通过 阿里云监控服务 配置 监控指标,对包年包月资源、实时作业消费、Tunnel上传下载数据量及作业运行时长 进行监控:通过监控大盘,实时观察监控图表,了解各监控指标的实时...

Hive

我们提供了工具来读取你Hive服务所在的集群的配置,您可以按照下面的地址下载 spark-examples-0.0.1-SNAPSHOT-shaded.jar 并上传至OSS,然后提交Spark作业到您的 Hive 服务所在集群上执行,即可在作业输出中获得访问您Hive集群所需的配置。...

通过ES-Hadoop实现Hive读写阿里云Elasticsearch数据

hadoop fs-mkdir/tmp/hadoop-es hadoop fs-put elasticsearch-hadoop-6.7.0/dist/elasticsearch-hadoop-hive-6.7.0.jar/tmp/hadoop-es 步骤二:创建Hive外表 在EMR控制台的 数据开发 模块中,创建 HiveSQL 类型的作业。具体操作步骤请参见 ...

Hive巡检项及服务关键指标说明

重要 部分非DataLake集群开启LDAP后,虽然使用HiveServer2可以正常连接并运行作业,但是巡检项一直报错 hive_server_availability_status failed。此时,您可以关闭巡检项或者新建一个最新版本的集群。异常等级说明 P0级异常:非常严重,...

EMR-3.33.x版本说明

本文介绍EMR-3.33.x发行版本的发布日期和更新内容等信息。发布日期 EMR-3.33.0 2021年1月15日 更新内容 服务 变更点...hive-hook:支持Hive元数据和作业运行信息输出至DataWorks。spark-hook:支持Spark元数据和作业运行信息输出至DataWorks。

数据开发常见问题

在 新建作业 对话框中,输入 作业名称 和 作业描述,从 作业类型 下拉列表中选择 Hive 作业类型。单击 确定。编辑作业内容。在 基础设置 页面,设置参数的 Key 和 Value,其中 Key 为脚本文件中的变量名,必须与脚本一致,例如 rating。...

EMR-4.6.x版本说明

hive-hook:支持Hive元数据和作业运行信息输出至DataWorks。spark-hook:支持Spark元数据和作业运行信息输出至DataWorks。发行版本信息 Hadoop集群 服务 版本 HDFS 3.2.1 YARN 3.2.1 Hive 3.1.2 Spark 2.4.7 Knox 1.1.0 Tez 0.9.2 Ganglia ...

EMR Hive功能增强

本文为您介绍E-MapReduce(简称EMR)各版本对应的Hive组件版本,以及各版本中Hive相对开源增强的功能。Hive针对开源功能增强的功能如下表。EMR版本 组件版本 功能增强 EMR-5.2.1 Hive 3.1.2 修复使用DLF元数据执行 show create table 命令...

Hive指标

Hive指标包含以下部分:HIVE-HiveServer2 HIVE-MetaStore HIVE-HiveServer2 参数 指标 描述 JVM MemHeapInit hive_server_memory_heap_init JVM初始化堆内存。单位:Byte。JVM MemHeapCommitted hive_server_memory_heap_committed JVM已...

使用Prometheus监控E-MapReduce

hive_metrics_hive_mapred_tasks 提交的Hive on MR作业总数。hive_metrics_hive_tez_tasks 提交的Hive on Tez作业总数。hive_metrics_cumulative_connection_count 累计连接数。hive_metrics_active_calls_api_runTasks 当前runtask请求数...

使用Prometheus监控E-MapReduce

hive_metrics_hive_mapred_tasks 提交的Hive on MR作业总数。hive_metrics_hive_tez_tasks 提交的Hive on Tez作业总数。hive_metrics_cumulative_connection_count 累计连接数。hive_metrics_active_calls_api_runTasks 当前runtask请求数...

作业配置说明

配置项 说明 默认值 spark.monitor.cmd 作业监控命令组。多个监控命令用半角分号;分隔。监控方式为定时串行执行所配置的多个监控命令,将执行结果打印到作业日志中,记录系统状态信息。监控命令示例:系统整体状态信息:top-b-n 1、vmstat...

Spark作业异常排查及处理

文件格式报错 Hive或Impala作业读取Spark导入的Parquet表报错 具体报错:Failed with exception java.io.IOException:org.apache.parquet.io.ParquetDecodingException:Can not read value at 0 in block-1 in file xxx 报错原因:由于Hive...

Hive服务异常排查及处理

如果服务正常则可查看HiveMetaStore或者HiveServer2在集群监控Hive组件 HiveMetaStore 和 HiveServer2 关键指标监控项,根据指标项判断服务参数是否需要调整。具体操作,请参见 Hive巡检项及服务关键指标说明。可继续对HiveMetaStore或者...

编辑作业

本文介绍如何通过OpenAPI的方式创建作业、运行作业以及查看结果。前提条件 已创建集群,详情请参见 创建集群。已获取集群ID,详情请参见 查看集群列表与详情。已创建AccessKey,详情请参见 获取AccessKey。已获取相应的SDK,Java SDK请参见...

创建作业

Type String 是 SHELL 作业类型,取值如下:MR SPARK HIVE_SQL HIVE PIG SQOOP SPARK_SQL SPARK_STREAMING SHELL FailAct String 否 CONTINUE 失败策略,取值如下:CONTINUE:跳过本次作业 STOP:停止作业 MaxRetry Integer 否 5 最大重试...

EMR-3.36.x版本说明

优化Hive默认参数,以提升作业性能。修改E-MapReduce控制台上,Hive服务 配置 页面的 hive-env 页签的配置项名称为大写,便于用户使用。优化文件系统与MetaStore不一致时写Hive表的报错信息。HDFS 支持ZSTD(Zstandard)压缩格式。Flink ...

常见问题

如果您的作业必须使用Hive连接器,请使用提供的Table Redirection功能将查询转发到相应的独立连接器上。例如,通过设置以下参数,您可以在Trino中配置Hive连接器,使其能够正确地使用相应的连接器来查询Iceberg、Delta Lake和Hudi表。hive....

安全白皮书

数据恢复 手动创建作业快照:如果您需要在某个特定时间(作业运行时或者停止时)手动创建一个作业快照,并希望从该快照恢复作业,则可以手动创建作业快照。可用于数据恢复、快速部署业务或数据验证等场景。配置定时自动创建作业快照:如果...

2023-06-21版本

云原生内存数据库Tair 支持Hive Kerberos 支持将Flink Jar或Python作业写入开启Kerberos认证的Hive集群中。注册Kerberos集群信息 部署作业 审计日志 平台对接阿里云审计服务,您可以在审计服务平台查看到用户在平台上的操作记录。查看资源...

作业编辑

目前E-MapReduce数据开发支持的作业类型有:Shell、HiveHive SQL、Spark、SparkSQL、Spark Shell、Spark Streaming、MR、Sqoop、Pig、Flink、Streaming SQL、Presto SQL和Impala SQL。说明 创建作业作业类型 一经确定,不能修改。单击...

查询作业列表

调用ListFlowJob接口查询作业列表。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求参数 名称 类型 是否必选 示例值 描述 Action String 是 ...

Iceberg

作业开发 页面的目标作业文本编辑区域,编写SQL流作业。CREATE TEMPORARY TABLE datagen(id BIGINT,data STRING)WITH('connector'='datagen');CREATE TEMPORARY TABLE dlf_iceberg(id BIGINT,data STRING)WITH('connector'='iceberg','...

Hudi

不支持以Session模式提交作业。不支持修改字段,如需修改,请在DLF控制台通过Spark SQL语句进行操作。语法结构 CREATE TEMPORARY TABLE hudi_tbl(uuid BIGINT,data STRING,ts TIMESTAMP(3),PRIMARY KEY(uuid)NOT ENFORCED)WITH('connector'...

注册Hive Kerberos集群

如果您的Flink作业要访问的Hive支持了Kerberos,则需要您先在Flink全托管控制台上注册Hive Kerberos集群,然后在Flink作业中配置Kerberos集群信息,即可访问支持了Kerberos的Hive。使用限制 仅支持Hadoop 3版本的Hive Kerberos集群。一个...

E-MapReduce数据迁移方案

作业同步 Hadoop、Hive、Spark或MR等如果有较大的版本升级,可能涉及作业改造,要视具体情况而定。常见问题:Gateway OOM 修改/etc/ecm/hive-conf/hive-env.sh。export HADOOP_HEAPSIZE=512 改成1024。作业执行内存不足 set mapreduce.map....

监控与报警

作业(任务)维度 监控指标 描述 CPU使用率(作业维度)指定作业的CPU使用百分比。内存使用率(作业维度)指定作业的内存使用百分比。磁盘读取数据量(作业维度)指定作业的磁盘读取数据量(MB)。磁盘写入数据量(作业维度)指定作业的...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云监控 应用实时监控服务 检索分析服务 Elasticsearch版 轻量应用服务器 视图计算 弹性公网IP
新人特惠 爆款特惠 最新活动 免费试用