Hive
Hive是一个基于Hadoop的数据仓库框架,在大数据业务场景中,主要用来进行数据提取、转化和加载(ETL)以及元数据管理。
Hive结构
名称 | 说明 |
HiveServer2 | HiveQL查询服务器,可以配置为Thrift或者HTTP协议,接收来自JDBC客户端提交的SQL请求,支持多客户端并发以及身份验证。 |
Hive MetaStore | 元数据管理模块,此模块被其他引擎所依赖,用于存储Database和Table等元信息。例如,Spark和Presto均依赖此模块作为其元数据管理。 |
Hive Client | Hive客户端,直接利用该客户端提交SQL作业,根据其设置运行引擎配置,可以将SQL转换成MR作业、Tez作业和Spark作业,该模块在所有EMR节点上均有安装。 |
Hive功能增强
在各版本的EMR中,Hadoop、Hive版本和EMR集群的配套情况,请参见发行版本。针对开源增强的Hive功能,详见下表。
EMR-5.x系列
EMR版本 | 组件版本 | 功能增强 |
EMR-5.20.0 | Hive 3.1.3 | 优化分区表新增字段性能。 |
EMR-5.17.4 | Hive 3.1.3 | 支持部署Master-Extend节点组。 |
EMR-5.12.1 | Hive 3.1.3 | Hive warehouse支持默认使用OSS-HDFS存储。 |
EMR-5.9.0 | Hive 3.1.3 | 支持开启Kerberos身份认证。 |
EMR-5.8.0 | Hive 3.1.2 | 支持一键对接LDAP。 |
EMR-5.6.0 | Hive 3.1.2 | 修复了TEZ开启Speculation后重复Commit的缺陷。 |
EMR-5.5.0 | Hive 3.1.2 |
|
EMR-5.4.0 | Hive 3.1.2 | Hive on JindoFS(Block)支持批量元数据优化功能,默认未开启。 |
EMR-5.3.0 | Hive 3.1.2 | Hive on JindoFS(Block模式)支持批量元数据优化功能。 |
EMR-5.2.1 | Hive 3.1.2 |
|
EMR-3.x系列
EMR版本 | 组件版本 | 功能增强 |
MR-3.51.4 | Hive 2.3.9 | 支持部署Master-Extend节点组。 |
EMR-3.46.1 | Hive 2.3.9 | Hive warehouse支持默认使用OSS-HDFS存储。 |
EMR-3.40.0 | Hive 2.3.8 |
|
EMR-3.39.1 | Hive 2.3.8 | 适配JindoSDK。 |
EMR-3.36.1 | Hive 2.3.8 |
|
EMR-3.35.0 | Hive 2.3.7 | 修复Fetch Task相关的社区问题。 |
EMR-3.34.0 | Hive 2.3.7 |
|
EMR-3.33.0 | Hive 2.3.7 |
|
EMR-3.32.0 | Hive 2.3.5 |
|
EMR-3.30.0 | Hive 2.3.5 |
|
EMR-3.29.0 | Hive 2.3.5 |
|
EMR-3.28.0 | Hive 2.3.5 | 支持Delta 0.6.0版本。 |
EMR-3.27.2 | Hive 2.3.5 |
|
EMR-3.26.3 | Hive 2.3.5 | hcatalog表支持direct committer。 |
EMR-3.25.0 | Hive 2.3.5 | 修复自动LOCAL模式下MR任务执行失败的问题 |
EMR-3.24.0 | Hive 2.3.5 |
|
EMR-3.23.0 | Hive 2.3.5 |
|
EMR-3.23.0之前版本 | Hive 2.x | 外部统一数据库保存至Hive Meta,所有使用外部Hive Meta的集群共享同一份Meta信息。 |
EMR-4.x系列
EMR版本 | 组件版本 | 功能增强 |
EMR-4.10.0 | Hive 3.1.2 |
|
EMR-4.8.0 | Hive 3.1.2 |
|
EMR-4.6.0 | Hive 3.1.2 |
|
EMR-4.5.0 | Hive 3.1.2 |
|
EMR-4.4.1 | Hive 3.1.2 | 优化默认的参数配置。 |
EMR-4.4.0 | Hive 3.1.2 |
|
EMR-4.3.0 | Hive 3.1.1 | 支持自定义部署。 |
Hive语法
EMR产品最大程度的保持了开源社区的语法以及体验,在Hive语法上保持与开源社区Hive语法100%的兼容性。
关于Apache Hive的更多介绍,请参见Apache Hive官网。
相关文档
如何使用Hive客户端连接Hive,请参见Hive连接方式。
Hive服务身份认证,请参见使用Kerberos认证和使用LDAP认证。
Hive访问数据湖数据,请参见Hive访问Delta Lake和Hudi数据。
Hive作业常见的调优方法,请参见Hive作业调优。
Hive作业常见问题排查,请参见Hive作业异常排查及处理。