EMR-5.2.x版本说明

EMR-5.x系列的第一个稳定版本。本文介绍EMR-5.2.x版本的发布日期、更新内容和发行版本信息。

发布日期

EMR-5.2.1 2021年7月16日

更新内容

服务

变更点

SmartData

升级SmartData至3.6.1版本。版本详情,请参见SmartData 3.6.x版本简介

Hive

  • 修复使用DLF元数据执行show create table命令,结果显示不正确的问题。

  • 优化Hive默认参数,以提升作业性能。

  • 修改E-MapReduce控制台上,Hive服务配置页面的hive-env页签的配置项名称为大写,便于用户使用。

  • 修复UDF(User Define Function)导致HiveServer2内存泄露的问题。

  • 优化文件系统与MetaStore不一致时写Hive表的报错信息。

HDFS

支持ZSTD(Zstandard)压缩格式。

Delta Lake

  • 升级Delta Lake至0.8.0版本。

  • 支持Spark 3。

Flink

升级Flink至1.12-vvr-3.0.2版本。

Hudi

  • 升级Hudi至0.8.0版本。

  • 支持和Spark SQL集成。

Spark

重要

EMR-5.2.1版本的Spark(3.1.1)与Kudu(1.11.1)不兼容。

  • 支持数据湖格式Delta Lake和Hudi。

  • 支持Remote Shuffle Service。

  • 支持Livy 。

  • 优化E-MapReduce控制台上,Spark服务配置页面的spark-defaults页签的配置项名称。

  • 优化CBO(Cost-Based Optimization)、DPP(DynamicPartitionPruning)以及Z-Order等功能,性能比开源Spark 3版本提升50%。

  • 支持阿里云Log Service、DataHub和消息队列RocketMQ版(简称ONS)等数据源。

Tez

优化Tez默认参数,以提升作业性能。

Ranger

  • 修复Ranger启用Spark日志中的Warning报错。

  • 修复对接LDAP后,自动同步用户失败的问题。

Knox

  • 适配Kudu组件。

  • 适配Hbase组件。

Kafka

  • 支持Cruise Control组件,提供Kafka集群Balance功能。

  • Kafka上线热换盘功能,在不启停Broker前提下,可以更换坏盘。

  • 修改部分参数的默认值。

Hue

修复HUE查询历史记录时,中文乱码的问题。

Phoenix

修复Hive和Spark SQL访问Phoenix表时,报未找到JDBC Driver的问题。

ESS(EMR Remote Shuffle Service)

支持Spark 3。

发行版本信息

Hadoop集群

服务

版本

HDFS

3.2.1

YARN

3.2.1

Hive

3.1.2

Spark

3.1.1

Knox

1.1.0

Tez

0.9.2

Ganglia

3.7.2

Sqoop

1.4.7

SmartData

3.6.1

Bigboot

3.6.1

Hudi

0.8.0

OpenLDAP

2.4.44

Hue

4.9.0

HBase

2.3.4

Zookeeper

3.6.2

Presto

338

Impala

3.4.0

Zeppelin

0.9.0

Flume

1.9.0

Livy

0.7.1

Superset

0.36.0

Ranger

2.1.0

Storm

1.2.2

ESS

1.0.0

Alluxio

2.5.0

Kudu

1.11.1

Oozie

5.1.0

Shuffle Service集群

服务

版本

Zookeeper

3.6.2

Ganglia

3.7.2

Kafka

2.4.1

Kafka-Manager

1.3.3.16

OpenLDAP

2.4.44

knox

1.1.0

Ranger

2.1.0

Kafka集群

服务

版本

ESS

1.0.0