EMR-3.x系列版本说明

本文介绍EMR-4.x系列的发布日期与更新详情,关于各版本支持的组件,请参见发行版本

EMR-3.52.x

发布日期

版本

日期

EMR-3.52.1

20241218

EMR-3.52.0(不支持新购)

2024124

更新内容

服务

变更点

Spark

  • 修复了在扩容过程中遇到的配置问题。

  • 修复了Kerberos集群中偶发的SASL连接失败问题。

Hive

修复了在扩容过程中遇到的配置问题。

Trino

解决了LDAP启用后无法连接的问题。

Presto

Zookeeper

支持添加自定义配置。

Ranger

将现有的Spark 3 Ranger插件替换为Kyuubi开源项目提供的版本。

Hudi

升级至0.15.0版本。

Celeborn

升级至0.5.2版本。

JindoCache

升级至6.5.3版本。

StarRocks3

升级至3.2.11版本。

Kyuubi

升级至1.9.2版本。

StarRocks2

升级至2.5.22版本。

Impala

服务已下线。您可以选择使用推荐的服务作为替代,或自行安装相应的服务。

Impala:建议您使用Presto、Trino、ClickHouseStarRocks替代。

Kudu

Kafka

Kafka-Manager

EMR-3.51.x

本文介绍EMR-3.51.x版本的发布日期、更新内容和发行版本信息。

发布日期

版本

日期

EMR-3.51.4

20241218

EMR-3.51.3(不支持新购)

20241129

EMR-3.51.2(不支持新购)

20240829

EMR-3.51.1(不支持新购)

20240621

EMR-3.51.0(不支持新购)

20240423

更新内容

EMR-3.51.4

服务

变更点

JindoCache

升级至6.5.3版本。

StarRocks2

升级至2.5.22版本。

StarRocks3

升级至3.2.11版本。

EMR-3.51.3

服务

变更点

JindoSDK

升级JindoSDK以解决死锁问题。

EMR-3.51.2

服务

变更点

JindoCache

  • 升级至6.5.1版本。

  • 提升DHT(Distributed Hash Table)的读写性能。

Spark

  • 修复了无法删除分区目录的问题。

  • 修复了Hive包依赖问题,确保客户端操作不中断与metaStoreClient的连接。

Trino

  • 修复了扩容过程中可能导致部分已修改配置意外恢复的问题。

  • 支持查询高安全OSS-HDFS上的数据。

  • 修复启用DLF-AUTH后服务异常的问题。

Presto

支持查询高安全OSS-HDFS上的数据。

HDFS

解决了无法修改NameNodeDataNode内存的问题。

HBaseHDFS

YARN

  • ResourceManager支持批量发送timeline事件,提升了处理能力。

  • 修复了ResourceManager中容器和资源处理的逻辑问题。

Zookeeper

  • 解决了无法修改节点组内存配置的问题。

  • 支持重构日志配置文件。

Impala

修复了弹性扩容时修改客户配置的问题。

Ranger

支持新版JindoSDK内核,有效降低了CPU使用率。

Knox

修复了仅有一个Master-Extend时组件URL访问失效的问题。

Kafka

修复了Kafka Connect集群启动的问题。

StarRocks

修复了扩容后看不到新增BE的问题。

Doris

升级至2.1.4版本。

Paimon

升级至0.9-ali-7版本。

EMRHOOK

支持解析MaxCompute表的血缘数据。

EMR-3.51.1

服务

变更点

Spark

支持部署Master-Extend节点组。

Hive

Kyuubi

Paimon

Flink依赖从VVR版本替换为社区版,并支持DLF Catalog。

Knox

使用JDK 8进行打包。

Flink

已恢复在EMR-3.51.0中移除的DLF配置和依赖项。

EMR-3.51.0

服务

变更点

Spark

Spark3升级至3.4.2版本。

Celeborn

升级至0.4.0版本。

Doris

升级至2.1.0版本。

StarRocks

  • StarRocks2升级至2.5.18版本。

  • StarRocks3升级至3.2.4版本。

DeltaLake

升级至3.0.0版本。

Iceberg

升级至1.5.0版本。

Zookeeper

升级至3.8.4版本。

JindoCache

升级至6.2.5版本。

Flink

升级至1.17.2版本。

EMR-3.50.x

发布日期

版本

日期

EMR-3.50.0

20240219

更新内容

服务

变更点

Hudi

升级至0.14.0版本。

Flume

升级至1.11.0版本。

Kyuubi

升级至1.7.3版本。

Impala

升级至4.3.0版本。

Celeborn

升级至0.3.2版本。

JindoCache

升级至6.2.0版本。

Paimon

升级至0.7-ali-1版本。

Kafka

  • 升级至3.6.1版本。

  • 修复了Kafka Connect组件中存在的SASL安全认证漏洞。

Spark

修复了Commons Text漏洞。

StarRocks

  • StarRocks2升级至2.5.13版本。

  • StarRocks3升级至3.1.5版本。

Ranger

  • 修复了Commons Text漏洞。

  • 修复了Spring Security路径匹配权限绕过漏洞。

  • 修复了Spring Security forward/include认证绕过漏洞。

  • 修复了Spring Framework特殊匹配模式下身份认证绕过漏洞。

  • 支持修改Ranger同步LDAP用户周期。

EMR-3.49.x

本文介绍EMR-3.49.x版本的发布日期、更新内容和发行版本信息。

发布日期

版本

日期

EMR-3.49.1

20231116

EMR-3.49.0(不支持新购)

20231027

更新内容

服务

变更点

JindoCache

新增组件,版本为6.1.1。

JindoData

不支持选择JindoData。您可以使用新增的JindoCache来实现缓存功能,使用DLF-Auth来实现鉴权功能。

Spark

移除了hive-site.xml中与jdo相关的配置。

HBase

在配置中增加配置项,您可以根据自己的需求选择HBase Thrift Server的版本,包括v1v2。

StarRocks

升级StarRocks22.5.10版本。

Doris

升级Doris1.2.7版本。

Celeborn

升级Celeborn0.3.1版本。

Paimon

升级Paimon0.6-ali-2版本。

ClickHouse

升级ClickHouse23.8.2.7版本。

EMR-3.48.x

本文介绍EMR-3.48.x版本的发布日期、更新内容和发行版本信息。

发布日期

版本

日期

EMR-3.48.2

2023817

更新内容

服务

变更点

Trino

  • 修复了Paimon连接器无法成功查询HDFS表的问题。

  • 修复了无法读取Worker监控指标的问题。

Presto

  • 升级到0.283版本。

  • 修复了无法读取Worker监控指标的问题。

ClickHouse

默认赋予default用户所有权限。

StarRocks

  • 修改之前的StarRocksStarRocks2。

  • 新增StarRocks3,版本为 3.1.2版本,默认创建为存算一体版本,暂不支持存算分离版本。

Celeborn

升级到0.3.0版本。

EMR-3.47.x

本文介绍EMR-3.47.x版本的发布日期、更新内容和发行版本信息。

发布日期

版本

日期

EMR-3.47.0

202383

更新内容

服务

变更点

Hudi

升级到0.13.1版本。

Paimon

升级到0.5-ali-1版本。

StarRocks

升级到2.5.8版本。

JindoData

升级到4.6.11版本。

Trino

  • 升级到422版本。

  • Hudi连接器支持查询MOR(Merge On Read)表。

  • 优化了动态加载UDF时的错误提示。

EMR-3.46.x

本文介绍EMR-3.46.x版本的发布日期、更新内容和发行版本信息。

发布日期

版本

日期

EMR-3.46.1

2023713

EMR-3.46.0(不支持新购)

202361

更新内容

EMR-3.46.1

服务

变更点

Spark

  • Spark History Server支持默认使用OSS-HDFS存储。

  • Spark3 Native Engine支持使用OSSOSS-HDFS存储。

Hive

Hive warehouse支持默认使用OSS-HDFS存储。

OSS-HDFS

新增服务。

YARN

支持默认使用OSS-HDFS存储。

HBase

  • HBase HFile数据支持默认使用OSS-HDFS存储。

  • HBase WAL日志支持使用OSS-HDFS存储。

EMR-3.46.0

服务

变更点

Kyuubi

升级到1.7.1版本。

Celeborn

升级到0.2.2版本。

Paimon

  • Flink-Table-Store更名为Paimon。

  • 升级到0.4-ali-1版本。

Starrocks

升级到2.5.5版本。

Doris

升级到1.2.4版本。

ClickHouse

升级到22.8.17.17版本。

Trino

默认提供了一个简单的Event Listener,可以获取审计日志。

Phoenix

支持Hive on Phoenix。

EMR-3.45.x

本文介绍EMR-3.45.x版本的发布日期、更新内容和发行版本信息。

发布日期

版本

日期

EMR-3.45.1

202343

EMR-3.45.0(不支持新购)

2023228

更新内容

EMR-3.45.1

服务

变更点

ClickHouse

升级到22.8.14.53版本。

Trino

新增odps.properties连接器,支持查询MaxCompute。

JindoData

升级到4.6.5版本。

JindoSDK

升级到4.6.5版本。

Flink-Table-Store

升级到0.3-ali-2版本。

YARN

支持Node Labels功能管理。

EMR-3.45.0

服务

变更点

Iceberg

升级到1.1.0版本。

Hudi

  • 升级到0.12.2版本。

  • 支持CDC功能。

Kudu

升级到1.16.0版本。

Clickhouse

  • 升级到22.3.8.39版本。

  • 安装ClickHouse服务时必须选择ZooKeeper服务。

Celeborn

  • RSS更名为Celeborn。

  • Celeborn的版本为0.2.0。

Presto

新增服务,内核为社区Facebook PrestoDB 0.278.3版本,默认HTTP端口号为8889,HTTPS端口号为7779。

DeltaLake

升级到2.2.0版本。

StarRocks

升级到2.4.3版本。

Doris

升级到1.2.1版本。

Kafka-Manager

升级到3.0.0.6版本。

Impala

下线该服务。

OpenLDAP

升级到2.4.46版本。

Kyuubi

升级到1.6.1版本。

Ranger

升级到2.3.0版本。

HBase

  • 支持ThriftServer2。

  • 参数hbase.block.data.cachecompressed的默认值改为true。

Flink-Table-Store

新增服务,基于社区0.3版本。

JindoData

升级到4.6.4版本。

EMR-3.44.x

发布日期

EMR-3.44.0 2022121

更新内容

服务

变更点

Iceberg

升级到0.14.1版本。

Flink

升级到Flink1.15-vvr-6.0.2版本,对应社区Flink1.15大版本。

Kafka

  • 支持LDAP用户登录认证与鉴权。

  • 支持用户组鉴权。

Trino

  • EMR Presto改用社区正式名称Trino。

  • 支持RangerDLF AUTH。

  • 修复了一键开启LDAP后无法连接到Worker节点的问题。

JindoSDK

升级到4.6.2版本。

JindoData

升级到4.6.2版本。

HBase

  • 支持Ranger。

  • 修复了添加服务时不能选择OSS-HDFS作为存储模式的问题。

YARN

高安全模式默认开启ACL。

Starrocks

升级到2.3.4版本。

Doris

升级到1.1.5版本。

Hudi

控制台支持配置hudi-defaults.conf

Ranger

支持对接Trino、YARN、HBase、Kafka。

DLF-Auth

  • 升级至2.0.2版本。

  • 支持Trino、Impala。

OpenLDAP

对接了Nslcd组件。

Kudu

Kudu Tserver不再允许安装在Task节点组中。

Spark

升级至3.3.1版本。

Tez

升级至0.10.2版本。

Kyuubi

升级至1.6.0版本。

EMR-3.43.x

发布日期

版本

日期

EMR-3.43.1

20221108

EMR-3.43.0(不支持新购)

20221014

更新内容

EMR-3.43.1

服务

变更点

Kerberos

支持在EMR上对接外部KDC。

Kafka

支持新增启动命令配置项,允许用户自定义设置服务的启动参数。

JindoData

  • 升级至4.6.0版本。

  • 支持改写OSS-HDFS访问路径。

Flink

升级至1.13_vvr_4.0.15版本。

RSS

升级至0.1.4版本。

EMR-3.43.0

服务

变更点

Spark

  • 升级至3.3版本。

  • 支持开启Kerberos身份认证。

Hudi

  • 升级至0.12.0版本。

  • 支持Spark 3.3版本。

  • 支持使用云上MetaStore托管元数据并开启加速功能,详情请参见Hudi MetaStore使用说明

Flink

  • 支持开启Kerberos身份认证。

  • 支持与数据湖构建(DLF)自动连接。

Iceberg

  • 升级至0.14.0版本。

  • 支持Spark 3.3版本。

  • 支持开启Kerberos身份认证。

JindoData

  • 升级至4.5.1版本。

  • 支持免明文AccessKey访问阿里云资源。

Hadoop-CommonHDFS

  • 支持开启Kerberos身份认证。

  • 修复安全漏洞CVE-2022-25168。

Knox

接入Ranger,支持通过访问链接与端口页签访问Ranger UI。

HBase

  • 升级至1.7.1版本。

  • 支持开启Kerberos身份认证。

  • 支持分组配置。

RSS

  • 升级至0.1.2版本。

  • 支持开启Kerberos身份认证。

Doris

  • 升级至1.1.2版本。

  • 支持开启Kerberos身份认证。

StarRocks

  • 升级至2.2.6版本。

  • 支持开启Kerberos身份认证。

Kafka

  • 升级至2.13_3.2.1版本。

  • 支持开启Kerberos身份认证。

DeltaLake

  • 升级至2.1.0版本。

  • 支持Spark 3.3版本。

  • 支持开启Kerberos身份认证。

Kudu

新增组件。版本为1.14.0。

Impala

  • 支持DLF创建视图。

  • 支持开启Kerberos身份认证。

YARN、Imapla、Ranger、Hive、Kyuubi、Tez、Kafka、Zookeeper、DLF-Auth、Phoenix、Sqoop、Presto

支持开启Kerberos身份认证。

EMR-3.42.x

发布日期

EMR-3.42.0 202285

更新内容

服务

变更点

Hive

支持一键对接LDAP。

Presto

  • 升级至社区389版本。

    使用社区提供的Delta LakeHudi独立连接器。

    • 此版本Delta Lake连接器暂不支持Time TravelZ-Order。

    • 此版本Hudi连接器暂不支持查询MOR表。

  • 支持一键对接LDAP。

DeltaLake

  • 对接了DLF自动化湖表管理。

  • 支持Ranger鉴权。

  • 修复了timestamp字段无法收集统计信息的问题。

  • 支持optimizevacuum命令返回指标信息。

Hudi

升级至0.11.1版本。

HadoopCommon

新增组件,解决HDFS、YARNJindoSDK配置相互覆盖的问题。

YARN

弹性功能增强。

Ranger

  • 同时支持Spark2Spark3。

  • 支持Ranger Usersync一键对接LDAP。

Kafka

CruiseControl启动时会自动创建相关的Topic。

HBase

新增组件,版本为1.4.9。

Phoenix

新增组件,版本为4.14.1。

Doris

升级至1.1.1版本。

StarRocks

升级至2.2.3版本。

ClickHouse

修复了读OSS大文件时内存溢出的问题。

EMR-3.40.x

发布日期

EMR-3.40.0 2022421

更新内容

服务

变更点

JindoData

新增组件,版本为4.3.0。

JindoSDK

升级至4.3.0版本。

Spark

升级至3.2.1版本。

Hive

  • 修复了TEZ开启Speculation后重复Commit的缺陷。

  • 修复了必须Reload Function才能调用UDF的缺陷。

Presto

修复了Hadoop集群初始化完成后,添加Presto服务后,Presto服务无法启动的缺陷。

DeltaLake

修复了与Streaming SQL的兼容性问题。

Hudi

升级至0.10.1版本。

Iceberg

升级至0.13.1版本。

YARN

  • 增加了限制AM只运行在CORE组节点的功能配置。

  • 修复了mareduce.map.java.opts配置缺少taihaodoctor的问题。

Zookeeper

优化了JVM的参数配置。

Flink

适配JindoSDK 4.3.0。

Impala

Flume

Druid

Sqoop

升级PostgreSQL版本。

Zeppelin

解决了JDBC Interpreter启动失败的问题。

Ranger

Ranger 1.2.0版本Spark Plugin支持Hudi。

Oozie

升级Log4j2.17.2版本。

HBase

修复了HBase 1.4.9版本RegionServer无法启动的问题。

DLF-Auth

升级至2.0.0版本。

EMR-3.39.x

发布日期

版本

日期

EMR-3.39.2

2022325

EMR-3.39.1(不支持新购)

2022215

更新内容

EMR-3.39.2

说明

新版控制台OLAP集群和DataFlow集群支持该版本。

服务

变更点

Flink

  • 完善APM监控大盘,新增了部分监控指标。例如,sourceIdleTime。

  • 支持云监控报警。

Kafka

  • 支持SSLSASL配置。

  • 修改了部分参数的默认值。

Clickhouse

修改了部分参数的默认值。

EMR-3.39.1

服务

变更点

SmartData

组件下线。

BIGBOOT

RSS

  • 升级ESS服务为RSS,文档详情请参见RSS

  • 增强了服务的功能和稳定性。

JindoSDK

Spark

  • 优化了Hive on Spark。

  • 适配JindoSDK。

Tez

适配JindoSDK。

Hive

适配JindoSDK。

Presto

  • 支持UDF动态加载功能。

  • Delta Lake表支持for ... as of语法的Time Travel查询。

  • 增加独立的Delta Lake Catalog,提供默认的Delta连接器配置,并支持基于独立CatalogZOrder Dataskip优化。

  • 修复了Hudi连接器无法查询Hudi MOR表的问题,Hive连接器暂不支持查询Hudi MOR表。

  • 适配JindoSDK。

Delta Lake

  • 元数据管理

    • 使用Spark内置Catalog替代Hive CLI API同步元数据及分区信息。

    • 自动上报表的统计信息(dataProfiling)到MetaStore。

  • SQL

    • 支持Time Travel语法。

    • 支持DropPartition SQL语法。

    • 支持指定位置(FIRSTAFTER)的ADD COLUMN操作。

  • 表管理能力增强

    • 支持并默认开启可以根据表大小动态调整filesize。

    • 支持并默认开启自动Vacuum,支持并发Vacuum。

    • 优化了自动Compaction的逻辑,默认关闭。

    • 新增Zorder语法,并加速了Zorder的处理过程。

Hudi

升级至0.10.0版本。

HDFS

适配JindoSDK。

YARN

适配JindoSDK。

Flume

适配JindoSDK。

Flink

  • 默认将Flinklib目录上传到HDFS集群,方便用户通过yarn.provided.lib.dirs参数使用。

  • 适配JindoSDK。

Impala

适配JindoSDK。

Ranger

  • 修复Spark History Server启动失败的问题。

  • 适配JindoSDK。

HBase

  • 修复了默认参数存在的问题。

  • 修复了GC日志日期格式问题。

  • 修复了RS使用IP时存在的重启问题。

Druid

适配JindoSDK。

Clickhouse

优化了ClickHouse组件Stop时的处理逻辑。

Iceberg

  • 升级至0.13.0版本。

  • 隐藏默认配置项,提升用户使用体验。

DLF-Auth

修复了Spark History Server启动失败的问题。

StarRocks

新版控制台新增服务。

2.0.1版本上线,详情请参见StarRocks概述

EMR-3.38.x

发布日期

版本

日期

EMR-3.38.3

202112

EMR-3.38.2(不支持新购)

202112

EMR-3.38.1(不支持新购)

202111

EMR-3.38.0(不支持新购)

202110

更新内容

EMR-3.38.3

修复了所有相关组件的Log4j安全漏洞,详细信息请参见漏洞公告 | Apache Log4j2远程代码执行漏洞

服务

变更点

Presto

  • 修复了高可用集群Presto查询Hudi表报错的问题。

  • 修复了Elasticsearch连接器的Log4j漏洞。

DLF Metastore

  • Metastore log默认开启改为关闭。

  • 修复了Metastore gettablestats URI超长出错的问题。

Delta Lake

修复了变更Schema同步到Metastore的问题。

Flink

  • 升级VVR4.0.11版本,该版本支持了如下功能:

    • 发布Flink CDC商业功能:

      • 支持Schema Evolution。

      • 支持整库同步的Flink SQL语义。

    • 支持Gemini StatebackendState存储到OSS上。

  • 提供了企业版Hudi Connector,内置DLF作为元数据管理。

Sqoop

修复了Sqoop导入HCatalog表时,Decimal类型精度丢失的问题。

EMR-3.38.2

服务

变更点

SmartData

  • 升级SmartData3.8.0版本,详情请参见SmartData 3.8.x版本简介

  • 支持OSS基于KerberosRanger的认证和授权管理。

EMR-3.38.1

服务

变更点

SmartData

升级SmartData3.7.3版本,详情请参见SmartData 3.7.x版本简介

Spark

  • 移除了无效配置Log4j MetricsAppender。

  • 修复了SparkContext启动过程中空指针异常的问题。

Presto

  • 修复了Hadoop高可用集群,Presto需要配置host才能查询Hive表的问题。

  • 修复了内存较小时,默认配置下Presto无法启动的问题。

  • 修复了修改worker-jvm配置无法生效的问题。

  • 支持Ranger。

Impala

修复了查询DLF元数据表时,提示no such method error的问题。

Ranger

  • 支持Presto。

  • 修复了Ranger Spark insert ORCPARQUET表的权限问题。

  • 修复了Ranger Hive role权限在开启Kerberos后无法生效的问题。

DLF-Auth

  • 升级DLF-Auth1.0.1版本。

  • 支持DLF权限,可以控制Presto权限。

  • 修复了RAM用户缓存的问题。

EMR-3.38.0

服务

变更点

SmartData

升级SmartData3.7.2版本,详情请参见SmartData 3.7.x版本简介

Spark

  • 升级Spark2.4.8版本。

  • 同时支持Spark 2.4.8Spark 3.1.2。

    说明

    Spark3暂不支持DeltaRemote Shuffle Service。

  • Spark 3.x系列,SparkSQL优化了Distinct计算性能,即当聚合算子中包含多个count(distinct case ... when ...)时会触发优化功能。

  • 修复了AQEStats缺失情况下数组越界的问题。

  • 修复了AQECache在特定场景下报错的问题。

Hive

升级Hive2.3.9版本。

Presto

  • 发布成独立的Presto集群。

  • 升级Presto至社区358版本。

    重要

    此版本暂不支持Ranger。

  • 默认支持HudiMySQL等连接器,并更新了默认配置。

  • Presto集群支持弹性伸缩。

  • 支持数据湖分析。

DeltaLake

  • 统一Hive 2Hive 3delta-connectors。

  • 修复了delta-connectors查询多级分区表时的报错问题。

Hudi

  • 升级Hudi0.9.0版本。

  • 修复了DeltaLakeHudisql.extension的兼容性问题。

HDFS

NameNode预留空间默认参数自适应增加,保证磁盘空间不足时, NameNode及时进入SafeMode。

Flink

  • 升级Flink1.13-vvr-4.0.10版本,对应社区Flink 1.13.1。

  • 添加了商业化的Flink Connector。例如,Hologres。

  • 添加了相应的Metric Reporter,对接了APM大盘的监控。

  • 针对Kafka Connector,添加了基于SchemaRegistryKafka Catalog,支持直接读写已存在的Kafka Topic,无需DDL。

Storm

组件下线。

Zeppelin

升级Zeppelin至社区0.10.0版本。

Ranger

Presto为社区358版本时,该版本Ranger暂不支持Presto权限控制。

Hue

  • 修复YARN Job Browser在部分情况下无法正常展示和终止作业的问题。

  • 默认配置中放开YARN Job Browser。

  • 默认配置中支持Presto协议。

Druid

修复了服务器掉电时Pid文件残留,导致节点重启失败的问题。

ClickHouse

  • 更新了默认配置。

  • 支持集群扩容。

  • 支持MetaChecker功能。

  • 支持OSS表引擎和OSS表函数读数据。

  • 支持表级别自定义ZooKeeper地址。

Iceberg

新增组件。版本为0.12.0-1.0.1。

Knox

修复了Spark Task第一次访问时失败的问题。

DLF-Auth

新增组件。

支持DLF权限,可以控制HiveSpark权限。版本为1.0.0。

ESS

升级ESS1.2.0版本。

EMR-3.37.x

发布日期

版本

日期

EMR-3.37.1

20219

EMR-3.37.0(不支持新购)

20218

更新内容

EMR-3.37.1

服务

变更点

SmartData

升级SmartData3.7.1版本。

Hue

修复了高安全集群无法使用Impala的问题。

Kudu

支持Kerberos。

EMR-3.37.0

服务

变更点

SmartData

升级SmartData3.7.0版本。

Spark

修复了与Delta Lake兼容性的问题。

DeltaLake

  • 升级Delta-Connectors,支持使用StorageHandler语法建表并查询。

  • 修复了INSERT OVERWRITE分区表时的问题。

  • 修复了G-SCD场景下,Optimize将虚拟字段写入文件时的问题。

YARN

  • 节点Containers REST API增加了appId,CPUMemory资源使用信息。

  • 修复了弹性伸缩释放节点上AM日志无法查看的问题。

  • 支持弹性伸缩Decommission后清理释放的节点。

  • 完善了弹性伸缩Graceful Decommission的操作逻辑,待NM进程结束后再标记下线完成。

Zookeeper

升级至社区3.6.3版本。

Flink

  • 新增了SmartData组件。

  • 修复了SSHDataFlow-Flink集群中提交作业时,无法免密访问OSS的问题。

Impala

修复了直接删除OSS分区目录出现list目录循环的问题。

Hue

修复了HueOozie集成使用时界面显示的问题。

Kudu

升级至社区1.14.0版本。

Clickhouse

更新了默认配置。

EMR-3.36.x

发布日期

EMR-3.36.1 2021716

更新内容

服务

变更点

SmartData

升级SmartData3.6.1版本。

版本详情,请参见SmartData 3.6.x版本简介

Hive

  • 升级Hive2.3.8版本。

  • 修复使用DLF(DataLakeFormation)元数据执行show create table命令时,结果显示不正确的问题。

  • 优化Hive默认参数,以提升作业性能。

  • 修改E-MapReduce控制台上,Hive服务配置页面的hive-env页签的配置项名称为大写,便于用户使用。

  • 优化文件系统与MetaStore不一致时写Hive表的报错信息。

HDFS

支持ZSTD(Zstandard)压缩格式。

Flink

升级Flink1.12-vvr-3.0.2版本。

说明

Hadoop集群中的Flink已移除。

Hudi

  • 升级Hudi0.8.0版本。

  • 支持和Spark SQL集成。

Spark

  • 优化E-MapReduce控制台上,Spark服务配置页面的spark-defaults页签的配置项名称。

  • 优化输出日志性能。

  • 支持ZSTD(Zstandard)压缩格式。

Impala

修复使用HDFS时报错提示Core Dump的问题。

Tez

优化Tez默认参数,以提升作业性能。

Knox

  • 适配Kudu组件。

  • 适配Impala组件。

  • 适配Hbase组件。

Hue

修复HUE查询历史记录时,中文乱码的问题。

Phoenix

修复HiveSpark SQL访问Phoenix表时,报未找到JDBC Driver的问题。

ClickHouse

上线APM监控报警。

EMR-3.35.x

发布日期

EMR-3.35.0 2021421

新增内容

服务

变更点

ClickHouse

更新内容

服务

变更点

SmartData

升级至3.5.0版本。

版本详情,请参见SmartData 3.5.x版本简介

Spark

  • 修复Adaptive Execution部分场景无法生效的问题。

  • 修复统计聚合函数行为和Hive不一致的问题。

  • 修复读取Hive ORCchar类型数据正确性的问题。

HDFS

支持国密SM4加密算法。

Hue

升级Hue4.9.0版本。

Alluxio

升级Alluxio2.5.0版本。

Druid

  • 升级Druid0.20.1版本。

  • 增强了安全性。

Livy

升级Livy0.7.1版本。

EMR-3.34.x

发布日期

EMR-3.34.0 2021315

更新内容

服务

变更点

SmartData

升级至3.4.0版本。

版本详情,请参见SmartData 3.4.x版本简介

Spark

  • 优化了部分默认配置。
  • 性能优化:支持Window TopK下推。
  • 增强Hive读写CSVJSON表的兼容性。
  • ANALYZE语句支持省略全表列名。
  • 支持一键开启或关闭LDAP功能。
  • 改进Spark Beeline工具的易用性。

Hive

  • 优化了部分默认配置。

  • 性能优化:增强CBO。

  • 支持一键开启或关闭LDAP功能。

  • 升级Calcite版本至1.12.0。

  • 增加参数hive.security.authorization.sqlstd.confwhitelist.append

Presto

支持一键开启或关闭LDAP功能。

YARN

修复了Hadoop未授权访问Web UI时的高危风险问题。即通过SSH Tunnel方式访问YARN WebUI时,需要在URL里显式指定user.name=name的问题。

Zookeeper

升级至3.6.2版本。

Flink

初始化时更新config.sh文件,修复HADOOP_CLASSPATH的问题。

Impala

  • 升级Impala3.4.0版本。

  • 升级Shiro1.7.0版本。

  • 支持DLF元数据。

  • 支持查询Delta格式的数据。

  • 支持一键开启或关闭LDAP功能。

Tez

优化了默认配置。

HAS

修复在HASinstall流程中产生错误后admin.keytab无法重新init问题。

Ranger

  • 修复SparkFilter函数的下推问题。

  • 修复Ranger Disable Presto后,Presto无法启动的问题。

  • 支持一键开启或关闭LDAP功能。

Knox

修复Druid 0.20.0版本Knox链接的问题。

Hue

支持一键开启或关闭LDAP功能。

Hudi

  • 支持SQL on Hudi功能。
  • 修复了查询部分数据时准确性的问题。
  • Spark查询HudiCopy On Write表时,支持分区裁剪。
  • 支持分桶索引机制,提高写入性能。

Delta Lake

  • 修复基于已存在Delta表无法同步元数据至Hive Metastore的问题。
  • 修复Merge命令无法解析*的问题。
  • 修复基于Parquet格式的数据转换成Delta表,且创建表元数据时报错的问题。
  • 修复当没有待compact的文件时,执行Optimize命令异常的问题。
  • 支持Merge语法使用子查询作为source命令。
  • 使用Presto查询Delta表时,引入缓存机制,以提升查询效率。
  • 支持Impala查询Delta表。

Superset

  • 修复admin用户无法登录Web UI的问题。

  • 数据集兼容Druid集群模式。

  • 不再支持SparkSQL数据集。

Sqoop

支持导入Parquet格式的文件至OSS。

Alluxio

升级至2.4.1版本。

Phoenix

Hive on Phoenix支持字段设置。

Pig

已移除。

EMR-3.33.x

发布日期

EMR-3.33.0 2021115

更新内容

服务

变更点

SmartData

升级至3.2.0版本。

详情请参见SmartData 3.2.x版本简介

Spark

  • 升级至2.4.7版本。

  • 升级jQuery3.5.1版本。

  • 兼容Hive方式,自动更新表和分区大小。

  • 支持Spark元数据和作业运行信息输出至DataWorks。

Hive

  • 升级至2.3.7版本。

  • HCatalog支持Data Lake Formation。

  • 支持Hive元数据和作业运行信息输出至DataWorks。

Metastore

  • 新增Hive Statistics功能。

  • HCatalog支持Data Lake Formation。

  • 优化STSToken的获取方式。

HDFS

升级jQuery3.5.1版本。

YARN

  • 升级jQuery3.5.1版本。

  • 调整Fair Scheduler配置。

  • 优化了Timeline Server。

Zeppelin

升级至0.9.0版本。

Ranger

  • 增加HiveAudit日志配置。

  • 增加Log4j Audit的配置。

OpenLDAP

  • 增加审计功能。

  • 默认开启SSL端口(10636)。

  • 支持一键开启Presto。

Knox

  • 修复Spring漏洞。

  • 修复Spark UI中查看Executors页面的问题。

  • 修复OozieJob状态页面的问题。

Hue

支持Presto。

Druid

升级至0.20.0版本。

EMRHook

  • 新增软件服务。

  • hive-hook:支持Hive元数据和作业运行信息输出至DataWorks。

  • spark-hook:支持Spark元数据和作业运行信息输出至DataWorks。

EMR-3.32.x

发布日期

EMR-3.32.0 20201123

更新内容

服务

变更点

SmartData

升级至3.1.0版本。

详情请参见SmartData 3.1.x版本简介

Alluxio

  • 支持Alluxio 2.4.0版本。

  • 默认的参数配置,可以根据集群节点大小调整。

  • 默认使用EMR集群内的HDFS作为底层的UnderFS,开箱即用。

  • 增强Alluxio OSS UnderFS,适配OSS多版本等新功能。

  • 适配Hadoop、Hive、SparkPresto等引擎。

HUDI

支持HUDI 0.6.0版本。

Spark

JindoTable支持打开或关闭数据采集功能。

Hive

  • 修复了HiveServer连接池泄漏的问题。

  • JindoTable支持打开或关闭数据采集功能。

  • 优化ADD COLUMN的性能。

  • 修复了读取HUDI表时数据不正确的问题。

  • 默认的参数配置,可以根据集群节点大小调整。

HDFS

支持了更高数量级的Snapshot。

YARN

默认的参数配置,可以根据集群节点大小调整。

Tez

默认的参数配置,可以根据集群节点大小调整。

Sqoop

修复了Avro格式的文件导入问题。

EMR-3.30.x

发布日期

EMR-3.30.0 20201026

更新内容

服务

变更点

SmartData

升级至3.0.0。

详情请参见SmartData 3.0.x版本简介

Spark

  • 支持阿里云DLF(Data Lake Formation)元数据。

  • 升级HAS依赖至2.0.1。

  • 修复Streaming SQL反引号问题。

  • 移除DeltaJAR包,修改为Delta单独部署。

  • 修改日志路径统一写至HDFS下。

Hive

  • 支持阿里云DLF(Data Lake Formation)元数据。

  • 解决了读Delta表空目录时写DUMMY文件问题。

  • 升级HAS依赖至2.0.1。

Presto

  • 支持阿里云DLF(Data Lake Formation)元数据。

  • 解决读Delta表的限制问题。

  • 修复高安全模式下JVM配置缺失问题。

  • 升级HAS依赖至2.0.1。

HDFS

  • 支持热交换磁盘模式。

  • 升级HAS依赖至2.0.1。

YARN

  • 修复YARN RMZKStateStore的问题。

  • 支持SLS输出的SNAPPY文件。

  • 修改MapReduce Local模式目录配置,解决目录权限检查问题。

  • 支持热交换磁盘模式。

  • 日志路径统一写到HDFS下。

  • 升级HAS依赖至2.0.1。

Zookeeper

  • 支持绑定内网IP启动服务端口。

  • 升级HAS依赖至2.0.1。

Flink-Vvp

  • 升级至1.11-2.2.2版本。

  • 支持SQLAutopilot功能。

说明

Dataflow集群支持Flink-Vvp,Hadoop集群暂不支持Flink-Vvp。

Flink

  • 支持缓存模式写入OSS,结合FlinkCheckpoint与可重发的Source实现EXACTLY_ONCE语义。

  • 同步了Flink社区1.11.1功能,SQL支持多路输出(MULTI INSERT)。

  • 升级HAS依赖至2.0.1。

Impala

  • 支持自定义配置catalogd.flgsimpalad.flgsstatestored.flgs

  • 升级Shiro1.6.0版本。

  • 升级HAS依赖至2.0.1。

Tez

  • 优化AM的默认内存参数。

  • 升级HAS依赖至2.0.1。

HAS

升级HAS依赖至2.0.1。

Storm

Zeppelin

Ranger

OpenLDAP

Oozie

Knox

Kafka

HUE

HBase

Druid

EMR-3.29.x

发布日期

EMR-3.29.0 2020729

更新内容

服务

变更点

Bigboot

  • 升级至2.7.301版本。

  • Jindo DistCp支持写入时按OSS归档或低频写入。

  • 增强Fuse功能,支持多Namespaces。

  • 完善Cache模式的元数据缓存功能。

Spark

  • Spark升级至2.4.5.2.0。

  • 支持第三方Metastore的功能。

  • 增加datalake metastore-client。

Hive

  • Hive升级至2.3.5.6.0。

  • 支持第三方Metastore的功能。

  • 增加datalake metastore-client。

Presto

升级至338版本。

Ranger

  • 升级软件包至1.2.0-1.5.0。

  • 支持Presto 338。

  • 配置文件增加Description。

HDFS

自适应配置datanode reserved空间大小。

Knox

适配Impala、高版本FlinkPAI。

Druid

升级至0.18.1版本。

SmartData

升级至2.7.301版本。

EMR-3.28.x

发布日期

EMR-3.28.0 2020612

新增内容

服务

变更点

Bigboot

  • 发布首个JindoTable版本,基于表或分区的热度统计。

  • 支持Block模式上完整的存储策略,支持分层存储策略,包括低频和归档等。

  • 增加数据迁移工具Jindo DistCp。

  • 完善和修复Jindo Fuse。

  • 完善Cache模式中JFS SchemeHive引擎和Jindo JobCommitter上的集成。

  • Block模式读路径上,设置比重可以直接读OSS,用来缓解和分摊读本地缓存的开销。

  • JindoFS软件模块解耦,分为Bigboot(管控层)、Smartdata(分布式服务)和JindoFS SDK。每块独立升级维护。

更新内容

服务

变更点

Flink

已将开源Flink升级为企业版Ververica Platform,基于开源Flink 1.10深度定制,提供自研存储引擎Gemini等增值功能。

Bigboot

升级至2.7.0版本。

Delta

  • 升级至0.6.0版本。

  • 解耦DeltaSpark代码。

Spark

  • 升级至2.4.5版本。

  • 兼容DataFactorystreaming-sql脚本。

  • 支持Delta 0.6.0版本。

Hive

支持Delta 0.6.0版本。

Ranger

  • 支持HDFS、HiveSpark自定义部署。

  • 支持在控制台配置ranger-admin-siteranger-ugsync-site。

HDFS

针对HDFS写入时无可用DataNode节点的异常,打印对应DataNode异常信息(HDFS-9023)。

Hue

  • 支持Gateway集群安装Hue组件。

  • 支持在单个节点部署多个Hue实例。

DataFactory

支持Delta 0.6.0版本。

Druid

升级至0.18.0版本。

Knox

  • 升级至1.1.0-1.0.7版本。

  • 适配HBase UI。

EMR-3.27.x

发布日期

版本

日期

EMR-3.27.0

2020429

EMR-3.27.1(不支持新购)

202058

EMR-3.27.2(不支持新购)

2020520

新功能

功能

变更点

组件自定义部署

支持对Master节点上的组件进行自定义部署,目前支持以下组件:

  • Hadoop

  • Spark

  • Hive

  • Zookeeper

  • Presto

弹性伸缩功能支持优雅下线

开启优雅下线后,节点不会被立即释放,而是在设置的时间段内等待任务执行完成后释放。

更新内容

服务

变更点

Spark

  • CUBE中支持日期类型分区字段。

  • 调大Spark-Submitstack深度。

Delta

  • DDL相关语法增强,包括CREATE、SHOW、DESCRIBE等相关命令。

  • 支持带ZOrderOptimize语法。

Knox

  • 适配Druid UI。

  • 支持多Master部署。

Hive

  • hcatalog表支持magic committer。

  • 移除一些过时的默认配置。

Bigboot

  • 升级至2.6.3版本。

  • 支持多Master部署。

SmartData

  • 升级至2.6.3版本。

  • 支持多Master部署。

Ranger

  • 支持Solr组件。

  • 支持PrestoSQL 311版本。

Tez

支持scratchdir设置在OSS上。

Presto

升级至331版本。

Druid

升级至0.17.1版本。

Superset

升级至0.35.2版本。

Sqoop

  • MySql JDBC JAR包升级至5.1.48版本。

  • MySql direct导出模式支持通过--mysql-charset设置自定义编码。

EMR-3.26.x

发布日期

版本

日期

EMR-3.26.3(不支持新购)

2020416

更新内容

服务

变更点

Bigboot

  • 升级到2.6.3版本。

  • 支持OTS元数据和Namespace HA。

SmartData

Hive

hcatalog表支持direct committer。

YARN

配置默认的committerJindoOssCommitter。

HDFS

升级JindoFS相关配置。

Spark

配置默认的committerJindoOssCommitter。

EMR-3.25.x

发布日期

EMR-3.25.0 2020113

新功能

Ranger服务:支持Ranger Presto操作。

更新内容

服务

变更点

Ranger

  • 初始化HA集群RangerAdmin数据库。

  • 修复RangerUserSync启动脚本时的安全性问题。

Spark

  • 支持在控制台配置spark.sql.extensionsDelta相关参数。

  • 支持Hive读取Delta table,避免set inputformat。

  • 支持ALTER TABLE SET TBLPROPERTIESUNSET TBLPROPERTIES语句。

Delta

Hive

修复自动LOCAL模式下MR任务执行失败的问题。

Presto

  • 升级至310版本。

  • 升级joda-time版本至2.10.5。

Tez

  • 升级至0.9.2版本。

  • 修复tez-ui application进度无法正常显示的问题。

  • 修复tez-ui application history无法查看的问题。

Impala

修复Impala无法访问lzo表的问题。

HDFS

移除mongo-hadoop的相关JAR包。

Zookeeper

升级至3.5.6版本。

YARN

适配tez-ui,yarn-site页签支持添加配置项yarn.resourcemanager.system-metrics-publisher.enabled=true

Bigboot

  • 升级至2.2.3版本。

  • OSS Cache模式下支持rename操作。

SmartData

Knox

升级依赖包版本。

Oozie

升级依赖包版本。

EMR-3.24.x

发布日期

EMR-3.24.0 20191118

新功能

服务

变更点

Delta

  • 支持SQL语法,包括ALTER、CONVERT、CREATE、CTAS、DELETE、DESC、INSERT、MERGE、OPTIMIZE、UPDATEVACUUM。

  • 内置并优化Optimize。

  • 支持Hive connector。

  • 支持其他开源已有特性。

Grafana

新增组件(Flink独立集群),版本6.4.2。

Prometheus

新增组件(Flink独立集群),版本2.13.0。

AlertManager

新增组件(Flink独立集群),版本0.19.0。

TensorFlow on spark

  • 支持TensorFlow框架置于Spark之上,使得Spark与深度学习框架深度结合,包括了任务调度和数据交换优化方案等,为您提供从数据预处理到深度学习训练任务的一整套流程。

  • 支持Streaming类型任务。

更新内容

服务

变更点

SmartData

  • 优化JindoFS使用模式:Block模式使用方式不变;Cache模式不仅支持原有用法,还兼容了原有OSS文件系统的使用方式,支持数据缓存和元数据缓存,并可以通过配置分别控制开关(默认均关闭)。

  • 优化Block模式和Cache模式读写性能。

  • 优化磁盘清理,对本地磁盘上缓存的热数据实现更精确的统计和更及时的清理,并且能够严格保证磁盘使用率不会超过配额。

  • 完善对Gateway集群的支持,能够在Gateway上使用Block模式和Cache模式。

  • 支持一个存储集群与多个计算集群分离的部署方式。

Spark

  • 增加Delta相关参数支持。

  • 增加对Ranger spark plugin配置的支持。

  • JindoCube升级到0.3.0版本。

Hive

  • 增加SQL兼容性检查功能逻辑。

  • Hive2.3.5+Hadoop2.8.5组合发布。

  • 重启组件时不同步hiveserver2-site.xml中的内容至spark-conf下的hive-site.xml

  • 支持使用MSCK命令添加增量目录。

  • 修复Hive复用tez container时出现的bug。

  • 支持使用MSCK命令优化列目录。

Bigboot

升级至2.2.1,修复Native代码支持在部分机型上的问题。

Ranger

  • Spark plugin部署方式重构。

  • 修复HA集群header2没有获取keytabbug。

Kudu

修复启动逻辑。

Zookeeper

增加四字命令配置,默认开启。

HDFS

适配JindoFS。

YARN

  • 修改默认配置yarn.scheduler.capacity.node-locality-delay为-1。

  • 适配JindoFS。

Has

对接OpenLDAP做后端。

OpenLDAP

适配Has。

Presto

升级版本到0.228。

Kafka

移除D1坏盘。

Druid

升级至0.16.0。

Flume

升级至1.9.0。

Flink

  • 升级至1.9.1。

  • 支持Flink独立集群(白名单发布)。

EMR-3.23.x

发布日期

EMR-3.23.0 20190918

更新内容

服务

变更点

Druid

  • 升级至0.15.1。

  • 增加router组件。

  • 升级fastjson。

Spark

  • 更新spark thriftserver,解决class loader问题。

  • 重构spark事务相关代码,提升稳定性。

  • 解决升builtin hive2.3版本后orc格式读写问题。

  • 支持merge into语法。

  • 支持scanstream语法。

  • Structured Streaming Kafka sink支持EOS。

  • delta更新至0.4.0。

Hive

  • 删除老版本的hive hook。

  • 添加支持多个count distinct字段的数据倾斜处理优化。

  • 解决join不同bucketversion的表时丢数据的问题。

Flink

升级至1.8.2。

Bigboot

  • 更新小文件工具。

  • 更新OSS JAR,解决非daemon线程问题。

Kafka

  • 新增感知Deployment Set特性。

  • 去掉fastjson依赖。

HDFS

  • 优化SmartData OSS JAR包部署逻辑。

  • 更新SmartData OSS JAR包。

Flume

升级fastjson。

Tensorflow on Spark

新增服务。

Has

升级fastjson。

Livy

升级fastjson。

EMR-3.22.x

发布日期

EMR-3.22.0 2019728

新功能

服务

变更点

Kudu

  • 新增组件,Kudu填补Hadoop生态圈的功能空白,可提供类似HBase快速数据插入以及随机存取的功能,允许用户进行数据修改,同时还提供类似HDFSParquet超大规模的数据分析以及查询的功能。

    • 提供C++和Java API,以便用户进行二次开发。

    • 提供Impala、Spark以及Hive Metastore的集成。

  • Kudu版本基于开源社区Apache Kudu1.10.0版本。

OpenLDAP

  • 新增组件,取代ApacheDS,ApacheDS下线。

  • 高可用。

更新内容

组件

详细信息

JindoFileSystem

  • 多种存储模式

    • Block模式:数据以Block形式存储在后端存储OSS上,本地Namespace服务维护元数据信息。在元数据性能和数据性能上,Block模式较优。Block模式支持不同的存储策略,包括WARM存储策略(本地-副本,OSS-副本)、COLD(仅OSS-副本)、 HOT(本地多副本、OSS-副本)、TEMP(仅本地-副本)和ALL_HDD(本地多副本),默认为WARM,用户可以根据不同的应用场景对目录设置不同的存储策略。

    • Cache模式: 该模式主要兼容现有OSS存储方式。在Cache模式下,文件以对象的形式存储在OSS上,每个文件根据实际访问情况会在本地进行数据和元数据的缓存,从而提高访问数据以及元数据的性能。Cache模式提供不同元数据同步策略以满足用户在不同场景下的需求。

  • 外部客户端支持

    • 客户端SDK提供了E-MapReduce集群外访问E-MapReduce JindoFS 的文件系统的能力,通过客户端可以访问Block模式的Namespace,但外部客户端不能利用到E-MapReduce JindoFSE-MapReduce集群内部构建的数据缓存,性能上相对于E-MapReduce集群内部使用也有一定的差距。

    • Cache模式则保留了原有OSS存储的语义,通过JindoFSE-MapReduce集群内部实现了数据缓存加速,因此,E-MapReduce 集群外部可以直接通过OSS客户端访问数据,例如,OSS SDK或者E-MapReduceOssFileSystem等。

  • 生态组件支持

    • JindoFS目前已经支持E-MapReduce上的众多计算引擎,例如,Spark、Flink、Hive、MapReduce、ImpalaPresto等。

    • 针对计算和存储分离的场景,也可以把作业日志存储在JindoFS上,例如,YARN Container logSpark Event log。

    • JindoFS可以作为HBaseHFile后端存储,扩展HBase的存储能力。

OssFileSystem

  • OssFileSystem增加自动检测坏盘逻辑,修复OSS写入时,由于坏盘导致缓存写入失败的问题。

  • 补全OssFileSystem相关配置。

Bigboot

  • 升级到2.0.0版本。

  • 包括多Namespace支持、本地数据块以大文件形式存储、多模存储支持和外部客户端支持等多项重大更新。

  • 解决机器重启过程中Bigboot monitor状态不正确问题。

  • 增加Kudu组件的服务spec。

  • 增加各个服务spec的正确性检验。

Hadoop

  • HDFS

    • HDFS Federation适配,支持通过自定义配置和API创建HDFS Federation集群,避免创建Federation集群时的二次Format。

    • 优化坏盘检测逻辑,针对本地盘场景,可以通过dfsadmin触发DataNode blockreport时进行坏盘检测。

  • YARN

    修复MR作业Container日志存在JindoFSOSS时, MapReduce JobHistory作业列表不更新的问题。

Spark

  • Relational Cache

    支持Relational Cache,Relational Cache通过预计算加速用户查询。用户可以创建Relational Cache对数据进行预计算,在执行用户查询时,Spark Optimizer自动发现合适的Cache,并改写SQL执行计划,基于Cache的数据继续计算,从而提升查询速度,适用于报表、Dashboard、数据同步和多维分析等场景。

    • 通过DDL,进行CACHE、UNCACHE、ALTER、SHOW等操作,Cache的数据支持Spark的所有数据源和数据格式。

    • 支持自动的Cache数据更新以及通过REFRESH命令更新Cache数据,支持基于分区的增量更新。

    • 支持基于Relational Cache的执行计划优化。

  • Streaming SQL

    • 规范Stream Query Writer的参数配置。

    • 优化Kafka数据表Schema兼容性检查。

    • Kafka数据表Schema不存在时自动创建到SchemaRegistry。

    • 优化Kafka Schema不兼容时的日志信息。

    • 修复查询结果写Kafka表时必须显式指定列名的问题。

    • 去掉流式SQL查询只支持KafkaLoghub数据输入源的限制。

  • Delta

    新增Delta,用户可使用Spark创建Delta datasource,以支持流式数据写入、事务性读写、数据校验和数据回溯等应用场景。详情请参见Delta详细信息

    • 支持使用DataFrame APIDelta读取数据或者写入数据到Delta。

    • 支持使用Structured Streaming APIDelta作为source或者sink进行数据的读或写。

    • 支持使用Delta API对数据进行update、delete、merge、vacuum、optimize等操作。

    • 支持使用SQL创建基于Delta的表、导入数据到Delta和读取Delta表等操作。

  • Others

    • constraint feature,支持主键和外键。

    • 解决servletjar冲突问题。

Flink

log4j日志回滚。

Kafka

  • log4j日志回滚。

  • 升级fastjson。

Zeppelin

升级依赖的commons-lang3包到3.7版本,修复pyspark无法写OSS的问题,详情请参见Spark 2.4 incompatibility with commons-lang3 in Zeppelin

Ranger

增加Show grants支持。

Analytics-Zoo

修复NumPy安装错误问题。

Impala

兼容Apache Kudu 1.10.0版本。

Presto

升级到0.221版本。

ZooKeeper

升级到3.5.5版本。

EMR-3.22.x之前版本

EMR-3.2.0

支持所有的服务在界面上进行起停操作,支持在界面对服务进行配置管理。

EMR-3.1.1

  • OS升级到CentOS 7.2。

  • Spark升级到2.1.1版本。

  • emr-core升级到1.2.6版本。

  • 修复了OSSAccessKey操作的缺陷。

EMR-3.0.2

  • emr-core版本升级到1.2.5版本。

  • OSSAccessKey支持更多Region。

  • 调整角色AccessKey的替换策略。

  • 修复关于HiveHadoop的部分缺陷。

EMR-3.0.1

  • 支持交互式,支持统一的表管理,使用外部统一数据库保存Hive meta,所有使用外部Hive meta的集群都共享同一份meta信息。

  • 升级emr-core1.2.4版本,优化了OSS读写的性能。

  • Spark升级到2.0.2版本。

说明

EMR-3.0.0版本完全兼容。

EMR-3.0.0

第一次发布EMR版本。