EMR-5.x系列版本说明

本文介绍EMR-5.x系列的发布日期与更新详情,关于各版本支持的组件,请参见发行版本

EMR-5.18.x

发布日期

版本

日期

EMR-5.18.1

20241218

EMR-5.18.0(不支持新购)

2024124

更新内容

服务

变更点

Spark3

  • 升级至3.5.3版本。

  • 修复了Spark在扩容过程中遇到的配置问题。

Trino

解决了LDAP启用后无法连接的问题。

Presto

Zookeeper

支持添加自定义配置。

Ranger

将现有的Spark 3 Ranger插件替换为Kyuubi开源项目提供的版本。

Hudi

升级至0.15.0版本。

Celeborn

升级至0.5.2版本。

Paimon

升级至1.0-ali-1版本。

JindoCache

升级至6.5.3版本。

StarRocks3

升级至3.2.11版本。

StarRocks2

升级至2.5.22版本。

Impala

服务已下线。您可以选择使用推荐的服务作为替代,或自行安装相应的服务。

Impala:建议您使用Presto、Trino、ClickHouseStarRocks替代。

Kudu

Kafka

Kafka-Manager

EMR-5.17.x

发布日期

版本

日期

EMR-5.17.4

20241218

EMR-5.17.3(不支持新购)

20241129

EMR-5.17.2(不支持新购)

20240829

EMR-5.17.1(不支持新购)

20240621

EMR-5.17.0(不支持新购)

20240423

更新内容

EMR-5.17.4

服务

变更点

JindoCache

升级至6.5.3版本。

StarRocks2

升级至2.5.22版本。

StarRocks3

升级至3.2.11版本。

EMR-5.17.3

服务

变更点

JindoSDK

升级JindoSDK以解决死锁问题。

EMR-5.17.2

服务

变更点

JindoCache

  • 升级至6.5.1版本。

  • 提升DHT(Distributed Hash Table)的读写性能。

Spark

  • 修复了无法删除分区目录的问题。

  • 修复了Hive包依赖问题,确保客户端操作不中断与metaStoreClient的连接。

Trino

  • 修复了扩容过程中可能导致部分已修改配置意外恢复的问题。

  • 支持查询高安全OSS-HDFS上的数据。

  • 修复启用DLF-AUTH后服务异常的问题。

Presto

支持查询高安全OSS-HDFS上的数据。

HDFS

解决了无法修改NameNodeDataNode内存的问题。

HBaseHDFS

YARN

  • ResourceManager支持批量发送timeline事件,提升了处理能力。

  • 修复了ResourceManager中容器和资源处理的逻辑问题。

Zookeeper

  • 解决了无法修改节点组内存配置的问题。

  • 支持重构日志配置文件。

Impala

修复了弹性扩容时修改客户配置的问题。

Ranger

支持新版JindoSDK内核,有效降低了CPU使用率。

Knox

修复了仅有一个Master-Extend时组件URL访问失效的问题。

Kafka

修复了Kafka Connect集群启动的问题。

StarRocks

修复了扩容后看不到新增BE的问题。

Doris

升级至2.1.4版本。

Paimon

升级至0.9-ali-7版本。

EMRHOOK

支持解析MaxCompute表的血缘数据。

EMR-5.17.1

服务

变更点

Spark

支持部署Master-Extend节点组。

Hive

Kyuubi

Paimon

Flink依赖从VVR版本替换为社区版,并支持DLF Catalog。

Knox

使用JDK 8进行打包。

Flink

已恢复在EMR-5.17.0中移除的DLF配置和依赖项。

EMR-5.17.0

服务

变更点

Spark

Spark3升级至3.4.2版本。

Celeborn

升级至0.4.0版本。

Doris

升级至2.1.0版本。

StarRocks

  • StarRocks2升级至2.5.18版本。

  • StarRocks3升级至3.2.4版本。

DeltaLake

升级至3.0.0版本。

Iceberg

升级至1.5.0版本。

Zookeeper

升级至3.8.4版本。

JindoCache

升级至6.2.5版本。

Flink

升级至1.17.2版本。

EMR-5.16.x

发布日期

版本

日期

EMR-5.16.0

20240219

更新内容

服务

变更点

Hudi

升级至0.14.0版本。

Flume

升级至1.11.0版本。

Kyuubi

升级至1.7.3版本。

Impala

升级至4.3.0版本。

Celeborn

升级至0.3.2版本。

JindoCache

升级至6.2.0版本。

Paimon

升级至0.7-ali-1版本。

Kafka

升级至3.6.1版本。

StarRocks

  • StarRocks2升级至2.5.13版本。

  • StarRocks3升级至3.1.5版本。

Spark

修复了Commons Text漏洞。

Ranger

  • 修复了Commons Text漏洞。

  • 修复了Spring Security路径匹配权限绕过漏洞。

  • 修复了Spring Security forward/include认证绕过漏洞。

  • 修复了Spring Framework特殊匹配模式下身份认证绕过漏洞。

  • 支持修改Ranger同步LDAP用户周期。

EMR-5.15.x

发布日期

版本

日期

EMR-5.15.1

20231116

EMR-5.15.0(不支持新购)

20231027

更新内容

服务

变更点

JindoCache

新增服务,版本为6.1.1。

JindoData

不支持选择JindoData。您可以使用新增的JindoCache来实现缓存功能,使用DLF-Auth来实现鉴权功能。

Spark

移除了hive-site.xml中与jdo相关的配置。

HBase

在配置中增加配置项,您可以根据自己的需求选择HBase Thrift Server的版本,包括v1v2。

StarRocks

升级StarRocks22.5.10版本。

Doris

升级Doris1.2.7版本。

Celeborn

升级Celeborn0.3.1版本。

Paimon

升级Paimon0.6-ali-2版本。

ClickHouse

升级ClickHouse23.3.13.6版本。

EMR-5.14.x

发布日期

版本

日期

EMR-5.14.2

2023817

更新内容

服务

变更点

Trino

  • 修复了Paimon连接器无法成功查询HDFS表的问题。

  • 修复了无法读取Worker监控指标的问题。

Presto

  • 升级到0.283版本。

  • 修复了无法读取Worker监控指标的问题。

ClickHouse

默认赋予default用户所有权限。

StarRocks

  • 修改之前的StarRocks版本为StarRocks2。

  • 新增StarRocks3,版本为 3.1.2版本,默认创建为存算一体版本,暂不支持存算分离版本。

Celeborn

升级到0.3.0版本。

EMR-5.13.x

发布日期

版本

日期

EMR-5.13.0

202383

更新内容

服务

变更点

Hudi

升级到0.13.1版本。

Paimon

升级到0.5-ali-1版本。

StarRocks

升级到2.5.8版本。

JindoData

升级到4.6.11版本。

Trino

  • 升级到422版本。

  • Hudi连接器支持查询MOR(Merge On Read)表。

  • 优化了动态加载UDF时的错误提示。

EMR-5.12.x

发布日期

版本

日期

EMR-5.12.1

2023713

EMR-5.12.0(不支持新购)

202361

更新内容

EMR-5.12.1

服务

变更点

Spark

  • Spark History Server支持默认使用OSS-HDFS存储。

  • Spark3 Native Engine支持使用OSSOSS-HDFS存储。

Hive

Hive warehouse支持默认使用OSS-HDFS存储。

OSS-HDFS

新增服务。

YARN

支持默认使用OSS-HDFS存储。

HBase

  • HBase HFile数据支持默认使用OSS-HDFS存储。

  • HBase WAL日志支持使用OSS-HDFS存储。

EMR-5.12.0

服务

变更点

Kyuubi

升级到1.7.1版本。

Celeborn

升级到0.2.2版本。

Paimon

  • Flink-Table-Store更名为Paimon。

  • 升级到0.4-ali-1版本。

StarRocks

升级到2.5.5版本。

Doris

升级到1.2.4版本。

ClickHouse

升级到23.3.2.37版本。

Trino

默认提供了一个简单的Event Listener,可以获取审计日志。

Phoenix

支持Hive on Phoenix。

EMR-5.11.x

发布日期

版本

日期

EMR-5.11.1

202343

EMR-5.11.0(不支持新购)

2023228

更新内容

EMR-5.11.1

服务

变更点

ClickHouse

升级到22.8.14.53版本。

Trino

新增odps.properties连接器,支持查询MaxCompute。

JindoData

升级到4.6.5版本。

JindoSDK

升级到4.6.5版本。

Flink-Table-Store

升级到0.3-ali-2版本。

YARN

支持Node Labels功能管理。

EMR-5.11.0

服务

变更点

Iceberg

升级到1.1.0版本。

Hudi

  • 升级到0.12.2版本。

  • 支持CDC功能。

DeltaLake

  • 升级到2.2.0版本。

  • 支持Vacuum记录到事务日志。

Kudu

升级到1.16.0版本。

Clickhouse

安装ClickHouse服务时必须选择ZooKeeper服务。

Celeborn

  • RSS更名为Celeborn。

  • Celeborn的版本为0.2.0。

Presto

新增服务,内核为社区Facebook PrestoDB 0.278.3版本,默认HTTP端口号为8889,HTTPS端口号为7779。

StarRocks

升级到2.5.1版本。

Doris

升级到1.2.1版本。

Kafka-Manager

升级到3.0.0.6版本。

Impala

升级到4.2.0版本。

OpenLDAP

升级到2.4.46版本。

HBase

  • 支持JDK 11。

  • 支持ThriftServer2。

  • 参数hbase.block.data.cachecompressed的默认值改为true。

Flink-Table-Store

新增服务,基于社区0.3版本。

JindoData

升级到4.6.4版本。

EMR-5.10.x

发布日期

EMR-5.10.0 2022121

更新内容

服务

变更点

Iceberg

升级到0.14.1版本。

Flink

升级到Flink1.15-vvr-6.0.2版本,对应社区Flink1.15大版本。

Kafka

  • 支持LDAP用户登录认证与鉴权。

  • 支持用户组鉴权。

Trino

  • EMR Presto改用社区正式名称Trino。

  • 支持RangerDLF AUTH。

  • 修复了一键开启LDAP后无法连接到Worker节点的问题。

JindoSDK

升级到4.6.2版本。

JindoData

升级到4.6.2版本。

HBase

  • 支持Ranger。

  • 修复了添加服务时不能选择OSS-HDFS作为存储模式的问题。

YARN

高安全模式默认开启ACL。

Starrocks

升级到2.4.1版本。

Doris

升级到1.1.5版本。

Hudi

控制台支持配置hudi-defaults.conf

Ranger

  • 升级到2.3.0版本。

  • 支持对接Trino、YARN、HBase、Kafka。

DLF-Auth

  • 升级至2.0.2版本。

  • 支持Trino、Impala。

OpenLDAP

对接了Nslcd组件。

Kudu

Kudu Tserver不再允许安装在Task节点组中。

Spark

升级至3.3.1版本。

Tez

升级至0.10.2版本。

Kyuubi

升级至1.6.0版本。

EMR-5.9.x

发布日期

版本

日期

EMR-5.9.1

20221108

EMR-5.9.0(不支持新购)

20221014

更新内容

EMR-5.9.1

服务

变更点

Kerberos

支持在EMR上对接外部KDC。

Kafka

支持新增启动命令配置项,允许用户自定义设置服务的启动参数。

JindoData

  • 升级至4.6.0版本。

  • 支持改写OSS-HDFS访问路径。

Flink

升级至1.13_vvr_4.0.15版本。

RSS

升级至0.1.4版本。

EMR-5.9.0

服务

变更点

Spark

  • 升级至3.3版本。

  • 支持开启Kerberos身份认证。

Hudi

  • 升级至0.12.0版本。

  • 支持Spark 3.3版本。

  • 支持使用云上MetaStore托管元数据并开启加速功能,详情请参见Hudi MetaStore使用说明

Flink

  • 支持开启Kerberos身份认证。

  • 支持与数据湖构建(DLF)自动连接。

Iceberg

  • 升级至0.14.0版本。

  • 支持Spark 3.3版本。

  • 支持开启Kerberos身份认证。

JindoData

  • 升级至4.5.1版本。

  • 支持免AccessKey方式访问阿里云资源。

Hadoop-CommonHDFS

  • 支持开启Kerberos身份认证。

  • 修复安全漏洞CVE-2022-25168。

Knox

接入Ranger,支持通过访问链接与端口页签访问Ranger UI。

HBase

  • 升级至2.4.9版本。

  • 支持开启Kerberos身份认证。

  • 支持分组配置。

RSS

  • 升级至0.1.2版本。

  • 支持开启Kerberos身份认证。

Doris

  • 升级至1.1.2版本。

  • 支持开启Kerberos身份认证。

StarRocks

  • 升级至2.3.2版本。

  • 支持开启Kerberos身份认证。

Kafka

  • 升级至2.13_3.2.1版本。

  • 支持开启Kerberos身份认证。

DeltaLake

  • 支持升级至2.1.0版本。

  • 支持Spark 3.3版本。

  • 支持开启Kerberos身份认证。

Impala

  • 支持DLF创建视图。

  • 支持开启Kerberos身份认证。

Kudu

新增组件。版本为1.14.0。

YARN、Ranger、Hive、Kyuubi、Tez、Zookeeper、DLF-Auth、Phoenix、Sqoop、Presto

支持开启Kerberos身份认证。

EMR-5.8.x

发布日期

EMR-5.8.0 202285

更新内容

服务

变更点

Spark

支持一键对接LDAP。

Hive

支持一键对接LDAP。

Presto

  • 升级至社区389版本。

    使用社区提供的Delta LakeHudi独立连接器。

    • 此版本Delta Lake连接器暂不支持Time TravelZ-Order。

    • 此版本Hudi连接器暂不支持查询MOR表。

  • 支持一键对接LDAP。

DeltaLake

  • 对接了DLF自动化湖表管理。

  • 修复了CTAS场景不能自动同步分区信息的问题。

  • 支持optimizevacuum命令返回指标信息。

Hudi

升级至0.11.1版本。

HadoopCommon

新增组件,解决了HDFS、YARNJindoSDK配置相互覆盖的问题。

YARN

弹性功能增强。

Ranger

  • 同时支持Spark2Spark3。

  • 支持Ranger Usersync一键对接LDAP。

Kafka

新增组件,版本为2.12-2.4.1。

HBase

新增组件,版本为2.3.4。

Phoenix

新增组件,版本为5.1.2。

Doris

升级至1.1.1版本。

StarRocks

  • 升级至2.3.0版本。

  • 主键模型支持完整的DELETE WHERE语法、支持持久化主键索引以降低内存使用等,详细信息请参见StarRocks version 2.3

ClickHouse

  • 升级为22.3.8.39版本。

  • 修复了读OSS大文件时内存溢出的问题。

EMR-5.6.x

发布日期

EMR-5.6.0 2022421

更新内容

服务

变更点

JindoData

新增组件,版本为4.3.0。

JindoSDK

升级至4.3.0版本。

Spark

升级至3.2.1版本。

Hive

修复了TEZ开启Speculation后重复Commit的缺陷。

Presto

修复了Hadoop集群初始化完成后,添加Presto服务后,Presto服务无法启动的缺陷。

DeltaLake

DML支持SubQuery。

Hudi

升级至0.10.1版本。

Iceberg

升级至0.13.1版本。

YARN

增加了限制AM只运行在CORE组节点的功能配置。

HBase

修复了HBase2.3.4内核的缺陷。

Zookeeper

优化了JVM的参数配置。

Impala

适配JindoSDK 4.3.0。

Sqoop

升级PostgreSQL版本。

Zeppelin

解决了JDBC Interpreter启动失败的问题。

Ranger

Ranger 1.2.0版本Spark Plugin支持DeltaHudi。

Flume

适配JindoSDK 4.3.0。

Oozie

升级Log4j2.17.2版本。

DLF-Auth

升级至2.0.0版本。

EMR-5.5.x

发布日期

版本

日期

EMR-5.5.1

2022325

EMR-5.5.0(不支持新购)

2022215

更新内容

EMR-5.5.1

说明

新版控制台OLAP集群支持该版本。

服务

变更点

Clickhouse

修改了部分参数的默认值。

StarRocks

升级至2.1.1版本。

EMR-5.5.0

服务

变更点

SmartData

组件下线。

BIGBOOT

RSS

  • 升级ESS服务为RSS。

  • 增强了服务的功能和稳定性。

JindoSDK

  • 升级架构为JindoData。

  • EMR首次集成JindoSDK 4.0,支持OSSOSS-HDFS服务等。

Spark

  • COUNT DISTINCT函数支持IF语句以及优化Case when的用法。

    设置参数spark.sql.optimizer.rewriteConditionalDistinctAggregatestrue。

  • Shuffle Hash Join支持fallbackSort Merge Join。

    设置参数spark.sql.join.preferSortMergeJoinfalse,设置参数spark.sql.join.enableShuffledHashJoinFallbacktrue。

  • 支持非动态分区自动合并小文件。

    设置spark.sql.adaptive.merge.output.small.files.enabled参数为true。

  • GroupingSet以及Distinct等场景会自动调整并发度。

    设置参数spark.sql.execution.optimizeExpandtrue。

  • 优化了Hive on Spark。

  • 支持Time Travel语法。

  • 适配JindoSDK。

Tez

适配JindoSDK。

Hive

  • 优化了Hive Jindo批量删除的问题。

  • 优化了HiveServer2 OOM问题。

  • 优化了Hive on Spark。

  • 适配JindoSDK。

Presto

  • 升级Presto至社区358版本。

  • 默认增加MySQL、Iceberg、Hudi、Phoenix、KuduDelta连接器,并更新默认配置。

  • 支持数据湖分析。

  • 支持UDF动态加载功能。

  • 适配JindoSDK。

Delta Lake

  • 版本升级

    • 升级至1.1.0版本,兼容Spark 3.2.0。

    • 所有商业版功能迁移至1.1.0版本。

  • 元数据管理

    • 优化元数据修改同步到metastore的部分。

    • 自动上报表的统计信息(dataProfiling)到metastore。

  • SQL

    • 支持Time Travel语法。

    • 支持DropPartition SQL语法。

    • 支持SQL动态分区覆盖写。

    • 支持指定位置(FIRSTAFTER)的ADD COLUMN操作。

  • 表管理能力增强

    • 支持并默认开启可以根据表大小动态调整文件大小。

    • 支持并默认开启自动Vacuum,支持并发Vacuum。

    • 优化了自动Compaction的逻辑,默认关闭。

    • 新增Zorder语法,并加速了Zorder的处理过程。

Hudi

  • 升级至0.10.0版本。

  • 支持Spark 3.2.0版本。

  • 支持JindoFS Block模式。

HDFS

适配JindoSDK。

YARN

  • 适配RSS内存配置。

  • 适配JindoSDK。

Flume

适配JindoSDK。

Impala

适配JindoSDK。

Ranger

  • 支持Spark 3.2.0版本。

  • 支持Presto 358版本。

HBase

  • 修复了默认参数存在的问题。

  • 修复了GC日志日期格式问题。

Clickhouse

Iceberg

  • 升级至0.13.0版本。

  • 支持Presto 358版本。

DLF-Auth

  • 支持Spark 3.2.0版本。

  • 支持Presto 358版本。

EMR-5.4.x

本文介绍EMR-5.4.x版本的发布日期、更新内容和发行版本信息。

发布日期

版本

日期

EMR-5.4.3

202112

EMR-5.4.2(不支持新购)

202112

EMR-5.4.1(不支持新购)

202111

EMR-5.4.0(不支持新购)

202110

更新内容

EMR-5.4.3

修复了所有相关组件的Log4j安全漏洞,详细信息请参见漏洞公告 | Apache Log4j2远程代码执行漏洞

服务

变更点

Presto

修复了Elasticsearch连接器的Log4j漏洞。

DLF Metastore

  • Metastore log默认开启改为关闭。

  • 修复了Metastore gettablestats URI超长出错的问题。

Delta Lake

修复了变更Schema同步到Metastore的问题。

Sqoop

修复了Sqoop导入HCatalog表时,Decimal类型精度丢失的问题。

EMR-5.4.2

服务

变更点

SmartData

  • 升级SmartData3.8.0版本,详情请参见SmartData 3.8.x版本简介

  • 支持OSS基于KerberosRanger的认证和授权管理。

EMR-5.4.1

服务

变更点

SmartData

升级SmartData3.7.3版本,详情请参见SmartData 3.7.x版本简介

Oozie

修复了HA情况下OozieJetty Server依赖JAR包冲突,导致Jetty Server无法启动的问题。

Impala

修复了查询DLF元数据表时提示no such method error的问题。

DLF-Auth

升级DLF-Auth1.0.1版本。

EMR-5.4.0

服务

变更点

SmartData

升级SmartData3.7.2版本,详情请参见SmartData 3.7.x版本简介

Spark

  • 升级Spark3.1.2版本。

  • Spark 3.x系列,SparkSQL优化了Distinct计算性能,即当聚合算子中包含多个count(distinct case ... when ...)时会触发优化功能。

  • 修复了AQEStats缺失情况下数组越界的问题。

  • 修复了AQECache在特定场景下报错的问题。

Hive

Hive on JindoFS(Block)支持批量元数据优化功能,默认未开启。

Presto

Delta表支持StorageHandler查询。

DeltaLake

  • 升级DeltaLake1.0.0版本。

  • 统一Hive 2Hive 3delta-connectors。

  • 修复了delta-connectors查询多级分区表时的报错问题。

  • 支持多个功能的SQL语法。例如,DataSkipping、OptimizeZorder。

  • 支持同步MetaMetaStore。

Hudi

  • 升级Hudi0.9.0版本。

  • 修复了DeltaLakeHudisql.extension的兼容性问题。

说明

支持Spark 3.1.2版本。

HDFS

NameNode预留空间默认参数自适应增加,保证磁盘空间不足时, NameNode及时进入SafeMode。

Storm

组件下线。

Zeppelin

升级Zeppelin至社区0.10.0版本。

Hue

  • 修复YARN Job Browser在部分情况下无法正常展示和终止作业的问题。

  • 默认配置中放开YARN Job Browser。

  • 默认配置中支持Presto协议。

Druid

修复了服务器掉电时Pid文件残留,导致节点重启失败的问题。

ClickHouse

  • 更新了默认配置。

  • 支持集群扩容。

  • 支持MetaChecker功能。

  • 支持OSS表引擎和OSS表函数读数据。

Iceberg

  • 升级Iceberg0.12.0-1.0.1版本。

  • 修改了Hive Runtime依赖报错问题。

Knox

修复了Spark Task第一次访问时失败的问题。

DLF-Auth

新增组件。

支持DLF权限,可以控制HiveSpark权限。版本为1.0.0。

EMR-5.3.x

发布日期

版本

日期

EMR-5.3.1

20219

EMR-5.3.0(不支持新购)

20218

更新内容

EMR-5.3.1

服务

变更点

SmartData

升级SmartData3.7.1版本。

Hue

修复了高安全集群无法使用Impala的问题。

Kudu

支持Kerberos。

HBase

  • 修复了高安全集群重启HBase耗时过长的问题。

  • 修复了Spark 3.1.1版本与HBase集成使用时失败的问题。

  • 优化了Graceful Stop流程。

EMR-5.3.0

服务

变更点

SmartData

升级SmartData3.7.0版本。

Spark

修复了与Delta Lake兼容性的问题。

Hive

Hive on JindoFS(Block模式)支持批量元数据优化功能。

默认未开启此功能。

DeltaLake

  • 支持DeltaLake的分区特性。

  • 修复了desc detail命令和Spark 3.1.1版本不兼容的问题。

YARN

  • 节点Containers REST API增加了appId,CPUMemory资源使用信息。

  • 修复了弹性伸缩释放节点上AM日志无法查看的问题。

  • 修复了State Store历史数据造成集群不可用的问题。

  • 支持弹性伸缩Decommission后清理释放的节点。

  • 完善了弹性伸缩Graceful Decommission的操作逻辑,待NM进程结束后再标记下线完成。

Zookeeper

升级至社区3.6.3版本。

Flink

  • 新增了SmartData组件。

  • 修复了SSHDataFlow-Flink集群中提交作业时,无法免密访问OSS的问题。

Impala

修复了直接删除OSS分区目录出现list目录循环的问题。

Hue

修复了HueOozie集成使用时界面显示的问题。

Kudu

升级至社区1.14.0版本。

Clickhouse

组件版本为21.3.13.9。

Iceberg

新增Iceberg组件,组件版本为0.12.0。

EMR-5.2.x

发布日期

EMR-5.2.1 2021716

更新内容

服务

变更点

SmartData

升级SmartData3.6.1版本。版本详情,请参见SmartData 3.6.x版本简介

Hive

  • 修复使用DLF元数据执行show create table命令,结果显示不正确的问题。

  • 优化Hive默认参数,以提升作业性能。

  • 修改E-MapReduce控制台上,Hive服务配置页面的hive-env页签的配置项名称为大写,便于用户使用。

  • 修复UDF(User Define Function)导致HiveServer2内存泄露的问题。

  • 优化文件系统与MetaStore不一致时写Hive表的报错信息。

HDFS

支持ZSTD(Zstandard)压缩格式。

Delta Lake

  • 升级Delta Lake0.8.0版本。

  • 支持Spark 3。

Flink

升级Flink1.12-vvr-3.0.2版本。

Hudi

  • 升级Hudi0.8.0版本。

  • 支持和Spark SQL集成。

Spark

重要

EMR-5.2.1版本的Spark(3.1.1)与Kudu(1.11.1)不兼容。

  • 支持数据湖格式Delta LakeHudi。

  • 支持Remote Shuffle Service。

  • 支持Livy 。

  • 优化E-MapReduce控制台上,Spark服务配置页面的spark-defaults页签的配置项名称。

  • 优化CBO(Cost-Based Optimization)、DPP(DynamicPartitionPruning)以及Z-Order等功能,性能比开源Spark 3版本提升50%。

  • 支持阿里云Log Service、DataHub和消息队列RocketMQ版(简称ONS)等数据源。

Tez

优化Tez默认参数,以提升作业性能。

Ranger

  • 修复Ranger启用Spark日志中的Warning报错。

  • 修复对接LDAP后,自动同步用户失败的问题。

Knox

  • 适配Kudu组件。

  • 适配Hbase组件。

Kafka

  • 支持Cruise Control组件,提供Kafka集群Balance功能。

  • Kafka上线热换盘功能,在不启停Broker前提下,可以更换坏盘。

  • 修改部分参数的默认值。

Hue

修复HUE查询历史记录时,中文乱码的问题。

Phoenix

修复HiveSpark SQL访问Phoenix表时,报未找到JDBC Driver的问题。

ESS(EMR Remote Shuffle Service)

支持Spark 3。