EMR Hive功能增强

更新时间:2024-05-28 05:38:47

本文为您介绍E-MapReduce(简称EMR)各版本对应的Hive组件版本,以及各版本中Hive相对开源增强的功能。

Hive针对开源功能增强的功能如下表。

EMR-5.x系列
EMR-3.x系列
EMR-4.x系列

EMR版本

组件版本

功能增强

EMR-5.12.1

Hive 3.1.3

Hive warehouse支持默认使用OSS-HDFS存储。

EMR-5.9.0

Hive 3.1.3

支持开启Kerberos身份认证。

EMR-5.8.0

Hive 3.1.2

支持一键对接LDAP。

EMR-5.6.0

Hive 3.1.2

修复了TEZ开启Speculation后重复Commit的缺陷。

EMR-5.5.0

Hive 3.1.2

  • 优化了Hive Jindo批量删除的问题。

  • 优化了HiveServer2 OOM问题。

  • 优化了Hive on Spark。

  • 适配JindoSDK。

EMR-5.4.0

Hive 3.1.2

Hive on JindoFS(Block)支持批量元数据优化功能,默认未开启。

EMR-5.3.0

Hive 3.1.2

Hive on JindoFS(Block模式)支持批量元数据优化功能。

EMR-5.2.1

Hive 3.1.2

  • 修复使用DLF元数据执行show create table命令,结果显示不正确的问题。

  • 优化Hive默认参数,以提升作业性能。

  • 修改E-MapReduce控制台上,Hive服务配置页面的hive-env页签的配置项名称为大写,便于用户使用。

  • 修复UDF(User Define Function)导致HiveServer2内存泄露的问题。

  • 优化文件系统与MetaStore不一致时写Hive表的报错信息。

EMR版本

组件版本

功能增强

EMR-3.46.1

Hive 2.3.9

Hive warehouse支持默认使用OSS-HDFS存储。

EMR-3.40.0

Hive 2.3.8

  • 修复了TEZ开启Speculation后重复Commit的缺陷。

  • 修复了必须Reload Function才能调用UDF的缺陷。

EMR-3.39.1

Hive 2.3.8

适配JindoSDK。

EMR-3.36.1

Hive 2.3.8

  • 升级Hive至2.3.8版本。

  • 修复使用DLF(DataLakeFormation)元数据执行show create table命令时,结果显示不正确的问题。

  • 优化Hive默认参数,以提升作业性能。

  • 修改E-MapReduce控制台上,Hive服务配置页面的hive-env页签的配置项名称为大写,便于用户使用。

  • 优化文件系统与MetaStore不一致时写Hive表的报错信息。

EMR-3.35.0

Hive 2.3.7

修复Fetch Task相关的社区问题。

EMR-3.34.0

Hive 2.3.7

  • 优化了部分默认配置。
  • 性能优化:增强CBO。
  • 支持一键开启或关闭LDAP功能。
  • 升级Calcite版本至1.12.0。
  • 增加参数hive.security.authorization.sqlstd.confwhitelist.append

EMR-3.33.0

Hive 2.3.7

  • 升级至2.3.7版本。
  • HCatalog支持Data Lake Formation。
  • 支持Hive元数据和作业运行信息输出至DataWorks。

EMR-3.32.0

Hive 2.3.5

  • 修复了HiveServer连接池泄漏的问题。
  • JindoTable支持打开或关闭数据采集功能。
  • 优化ADD COLUMN的性能。
  • 修复了读取HUDI表时数据不正确的问题。
  • 默认的参数配置,可以根据集群节点大小调整。

EMR-3.30.0

Hive 2.3.5

  • 支持阿里云DLF(Data Lake Formation)元数据。
  • 解决了读Delta表空目录时写DUMMY文件问题。
  • 升级HAS依赖至2.0.1。

EMR-3.29.0

Hive 2.3.5

  • Hive升级至2.3.5.6.0。
  • 支持第三方Metastore的功能。
  • 增加datalake metastore-client。

EMR-3.28.0

Hive 2.3.5

支持Delta 0.6.0版本。

EMR-3.27.2

Hive 2.3.5

  • hcatalog表支持magic committer。
  • 移除一些过时的默认配置。

EMR-3.26.3

Hive 2.3.5

hcatalog表支持direct committer。

EMR-3.25.0

Hive 2.3.5

修复自动LOCAL模式下MR任务执行失败的问题

EMR-3.24.0

Hive 2.3.5

  • 增加SQL兼容性检查功能逻辑。
  • Hive2.3.5+Hadoop2.8.5组合发布。
  • 重启组件时不同步hiveserver2-site.xml中的内容至spark-conf下的hive-site.xml
  • 支持使用MSCK命令添加增量目录。
  • 修复Hive复用tez container时出现的bug。
  • 支持使用MSCK命令优化列目录。

EMR-3.23.0

Hive 2.3.5

  • 删除老版本的hive hook。
  • 添加支持多个count distinct字段的数据倾斜处理优化。
  • 解决join不同bucketversion的表时丢数据的问题。

EMR-3.23.0之前版本

Hive 2.x

外部统一数据库保存至Hive Meta,所有使用外部Hive Meta的集群共享同一份Meta信息。

EMR版本

组件版本

功能增强

EMR-4.10.0

Hive 3.1.2

  • 修复了Hue查询历史记录时,中文乱码的问题。

  • 修复了Hue与Oozie集成使用时界面显示的问题。

  • 修复YARN Job Browser在部分情况下无法正常展示和终止作业的问题。

  • 默认配置中放开YARN Job Browser。

  • 默认配置中支持Presto协议。

EMR-4.8.0

Hive 3.1.2

  • 优化了部分默认配置。

  • 性能优化:增强CBO。

  • 支持一键开启或关闭LDAP功能。

EMR-4.6.0

Hive 3.1.2

  • HCatalog支持Data Lake Formation。

  • 支持Hive元数据和作业运行信息输出至DataWorks。

EMR-4.5.0

Hive 3.1.2

  • 支持数据湖构建(DLF)元数据。

  • 支持Ranger Ownership权限。

EMR-4.4.1

Hive 3.1.2

优化默认的参数配置。

EMR-4.4.0

Hive 3.1.2

  • 升级至3.1.2版本。
  • 优化JindoFS。
  • 优化MSCK。
  • HCatalog支持JindoCommitter。
  • 升级HAS依赖。

EMR-4.3.0

Hive 3.1.1

支持自定义部署。