EMR-4.x系列版本说明

重要

EMR-4.x系列已经停止发布新版本。

EMR-4.10.x

发布日期

EMR-4.10.0 2022323

更新内容

服务

变更点

SmartData

组件下线。

BIGBOOT

JindoSDK

Spark

  • 升级至2.4.8版本。

  • 修复了Adaptive Execution部分场景无法生效的问题。

  • 修复了统计聚合函数行为和Hive不一致的问题。

  • 修复了读取Hive ORCchar类型数据正确性问题。

  • 优化了Thriftserver的默认配置。

  • 优化E-MapReduce控制台上,Spark服务配置页面的spark-defaults页签的配置项名称。

  • 优化了Hive on Spark。

  • 修复了AQEStats缺失情况下数组越界的问题。

  • 修复了AQECache在特定场景下报错的问题。

  • 移除了无效配置Log4j MetricsAppender。

  • 修复了SparkContext启动过程中空指针异常的问题。

  • 支持ZSTD(Zstandard)压缩格式。

Hive

  • 修复了UDF导致HiveServer2内存泄露的问题。

  • 修复了使用DLF(DataLakeFormation)元数据执行show create table命令时,结果显示不正确的问题。

  • 优化Hive默认参数,以提升作业性能。

  • 修改了E-MapReduce控制台上,Hive服务配置页面的hive-env页签的配置项名称为大写,便于用户使用。

  • 优化文件系统与MetaStore不一致时写Hive表的报错信息。

  • Hive on JindoFS(Block)支持批量元数据优化功能,默认未开启。

Ranger

  • 修复了Ranger启用Spark日志中的Warning报错。

  • 修复了对接LDAP后,自动同步用户失败的问题。

HDFS

  • 支持ZSTD(Zstandard)压缩格式。

  • NameNode预留空间默认参数自适应增加,保证磁盘空间不足时, NameNode及时进入SafeMode。

YARN

  • 节点Containers REST API增加了appId,CPUMemory资源使用信息。

  • 修复了弹性伸缩释放节点上AM日志无法查看的问题。

  • 修复了State Store历史数据造成集群不可用的问题。

  • 支持弹性伸缩Decommission后清理释放的节点。

  • 完善了弹性伸缩Graceful Decommission的操作逻辑,待NM(NodeMananger)进程结束后再标记下线完成。

Knox

  • 适配Kudu组件。

  • 适配HBase组件。

  • 修复了Spark Task第一次访问时失败的问题。

Tez

优化了Tez默认参数,以提升作业性能。

Sqoop

修复了Sqoop导入HCatalog表时,Decimal类型精度丢失的问题。

Delta Lake

  • 元数据管理

    • 使用Spark内置Catalog替代Hive CLI API同步元数据及分区信息。

    • 自动上报表的统计信息(dataProfiling)到MetaStore。

  • SQL

    • 支持Time Travel语法。

    • 支持DropPartition SQL语法。

    • 支持指定位置(FIRSTAFTER)的ADD COLUMN操作。

  • 表管理能力增强

    • 支持并默认开启可以根据表大小动态调整filesize。

    • 支持并默认开启自动Vacuum,支持并发Vacuum。

    • 优化了自动Compaction的逻辑,默认关闭。

    • 新增Zorder语法,并加速了Zorder的处理过程。

Hudi

  • 升级至0.10.0版本。

  • 修复了DeltaLakeHudisql.extension的兼容性问题。

Iceberg

新增组件。

版本为0.13.0,文档详情请参见Iceberg概述

Hue

  • 修复了Hue查询历史记录时,中文乱码的问题。

  • 修复了HueOozie集成使用时界面显示的问题。

  • 修复YARN Job Browser在部分情况下无法正常展示和终止作业的问题。

  • 默认配置中放开YARN Job Browser。

  • 默认配置中支持Presto协议。

DLF-Auth

新增组件。

版本为1.0.4,文档详情请参见DLF-Auth

HBase

  • 修复了高安全集群重启HBase耗时过长的问题。

  • 修复了Spark 3.1.1版本与HBase集成使用时失败的问题。

  • 优化了Graceful Stop流程。

Zookeeper

升级至社区3.6.3版本。

Presto

  • 升级Presto至社区358版本。

  • 支持UDF动态加载功能,详情请参见动态加载UDF

  • 支持数据湖分析。

Impala

  • 修复了直接删除OSS分区目录出现list目录循环的问题。

  • 修复了查询DLF元数据表时,提示no such method error的问题。

Zeppelin

升级Zeppelin至社区0.10.0版本。

Oozie

修复了HA情况下OozieJetty Server依赖JAR包冲突,导致Jetty Server无法启动的问题。

EMR-4.9.x

发布日期

EMR-4.9.0 2021421

更新内容

服务

变更点

SmartData

升级至3.5.0版本。

版本详情,请参见SmartData 3.5.x版本简介

Spark

  • 修复Adaptive Execution部分场景无法生效的问题。

  • 修复统计聚合函数行为和Hive不一致的问题。

  • 修复读取Hive ORCchar类型数据正确性的问题。

HDFS

支持国密SM4加密算法。

Hue

升级Hue4.9.0版本。

Alluxio

升级Alluxio2.5.0版本。

Livy

升级Livy0.7.1版本。

EMR-4.8.x

发布日期

EMR-4.8.0 2021315

更新内容

服务

变更点

SmartData

升级至3.4.0版本。

版本详情,请参见SmartData 3.4.x版本简介

Spark

  • 优化了部分默认配置。

  • 性能优化:支持Window TopK下推。

  • 增强Hive读写CSVJSON表的兼容性。

  • ANALYZE语句支持省略全表列名。

  • 支持一键开启或关闭LDAP功能。

  • 改进Spark Beeline工具的易用性。

Hive

  • 优化了部分默认配置。

  • 性能优化:增强CBO。

  • 支持一键开启或关闭LDAP功能。

YARN

修复了Hadoop未授权访问Web UI时的高危风险问题。即通过SSH Tunnel方式访问YARN Web UI时,需要在URL里显式指定user.name=name的问题。

Tez

优化了默认配置。

Ranger

  • 修复SparkFilter函数的下推问题。

  • 修复Ranger Disable Presto后,Presto无法启动的问题。

  • 支持一键开启或关闭LDAP功能。

Hue

支持一键开启或关闭LDAP功能。

Impala

  • 升级Impala3.4.0版本。

  • 升级Shiro1.7.0版本。

  • 支持DLF元数据。

  • 支持查询Delta格式的数据。

  • 支持一键开启或关闭LDAP功能。

  • 修复数据存储在OSS时,使用INSERT OVERWRITE命令的问题。

Hudi

  • 支持SQL on Hudi功能。

  • 修复了查询部分数据时准确性的问题。

  • Spark查询HudiCopy On Write表时,支持分区裁剪。

  • 支持分桶索引机制,提高写入性能。

Delta Lake

  • 修复基于已存在Delta表无法同步元数据至Hive MetaStore的问题。

  • 修复Merge命令无法解析*的问题。

  • 修复基于Parquet格式的数据转换成Delta表,且创建表元数据时报错的问题。

  • 修复当没有待compact的文件时,执行Optimize命令异常的问题。

  • 支持Merge语法使用子查询作为Source命令。

  • 使用Presto查询Delta表时,引入缓存机制,以提升查询效率。

  • 支持Impala查询Delta表。

ESS

  • 修复在Shuffle read阶段,出现closed channel异常、IndexOutOfBounds异常或堆外内存使用过多的问题。

  • 修复开启Metrics之后,出现NPE异常的问题。

HAS

修复在HAS install流程产生了错误后admin.keytab无法重新init问题

Presto

支持一键开启或关闭LDAP功能。

HBase

  • 升级至2.2.6版本。

  • 不再支持Ranger的权限控制。

Sqoop

支持导入Parquet格式的文件至OSS。

Superset

  • 修复admin用户无法登录Web UI的问题。

  • 数据集兼容Druid集群模式。

  • 不再支持SparkSQL数据集。

Knox

  • 支持通过Knox访问Presto。

  • 修复无法访问Druid Web UI的问题。

  • 取消HTTP仅限制使用高安全Knox访问Ranger UI的限制。

EMR-4.6.x

发布日期

EMR-4.6.0 2021115

更新内容

服务

变更点

SmartData

升级至3.2.0版本。

详情请参见SmartData 3.2.x版本简介

Spark

  • 升级至2.4.7版本。

  • 升级jQuery3.5.1版本。

  • 兼容Hive方式自动更新表和分区大小。

  • 支持Spark元数据和作业运行信息输出至DataWorks。

Hive

  • HCatalog支持Data Lake Formation。

  • 支持Hive元数据和作业运行信息输出至DataWorks。

Metastore

  • 新增Hive Statistics功能。

  • HCatalog支持Data Lake Formation。

  • 优化STSToken的获取方式。

HDFS

  • 升级jQuery3.5.1版本。

  • 升级至3.2.1版本。

YARN

  • 升级至3.2.1版本。

  • 升级jQuery3.5.1版本。

  • 调整Fair Scheduler配置。

  • 优化了Timeline Server。

Zeppelin

升级至0.9.0版本。

OpenLDAP

  • 增加审计功能。

  • 默认开启SSL端口(10636)。

  • 支持一键开启Presto。

Hue

支持Presto。

EMRHook

  • 新增软件服务。

  • hive-hook:支持Hive元数据和作业运行信息输出至DataWorks。

  • spark-hook:支持Spark元数据和作业运行信息输出至DataWorks。

EMR-4.5.x

EMR-4.5.1

发布日期

20201213

更新内容

  • 该版本修复了HivePresto查询分区表的问题。

  • 该版本目前只支持部分地域,包括华东1(杭州)、华东2(上海)和华北2(北京)。

EMR-4.5.0

发布日期

2020127

新增内容

服务

变更点

ESS(EMR Remote Shuffle Service)

支持1.0.0版本。

详情请参见ESS

Hudi

支持0.6.0版本。

Delta Lake

支持0.6.1版本。

更新内容

服务

变更点

Ranger

  • 升级至2.1.0版本。

  • 支持Ownership权限。

Presto

  • 升级至338版本。

  • 支持数据湖构建(DLF)元数据。

Zeppelin

升级至0.8.2版本。

SmartData

升级至3.1.0版本。

详情请参见SmartData 3.1.x版本简介

Bigboot

升级至3.1.0版本。

Hive

  • 支持数据湖构建(DLF)元数据。

  • 支持Ranger Ownership权限。

Spark

支持数据湖构建(DLF)元数据。

DLF Metastore

  • 修复高安全集群中Presto服务无法启动的问题。

  • 增加支持Hive 3Cache。

  • 修复HivePresto查询数据的问题。

Impala

支持在EMR控制台自定义配置catalogd.flgsimpalad.flgsstatestored.flgs

Tez

Tez UIautoDeploy相关漏洞修复。

OpenLDAP

增加10389端口等待的判断。

Hue

MySQL Backend安全漏洞修复。

Kerberos

  • 升级至Apache Kerby 2.0.1。

  • 修复外部Kerberos集群的kadmin principal无法自定义的问题。

Sqoop

  • 支持Parquet、AVROORC等多种文件格式。

  • 支持数据湖构建(DLF)元数据。

EMR-4.4.x

发布日期

EMR-4.4.1 2020915

更新内容

服务

变更点

YARN

  • 删除软件栈yarn.application.classpath配置中的hadoop/tools/lib目录。

  • 优化MR作业默认的参数配置。

Hive

优化默认的参数配置。

Tez

Ranger

  • 支持Impala权限控制。

  • 升级jackson-databind版本。

Impala

  • 支持集成Ranger。

  • 升级Shiro1.6.0版本。

SmartData

升级至2.7.301版本。

Bigboot

Knox

  • 支持Tez UI独立打开,支持YARN UI中的Tez。

  • 升级Shiro1.6.0版本。

EMRDOCTOR

修复时间配置文件为空时,导致不采集作业信息的问题。

Ganglia

增加HDFS Service RPC Port的端口探测。

Oozie

  • 修复Web UI无法打开的问题。

  • 升级jackson-databind版本。

Zookeeper

支持绑定内网IP启动服务端口。

Superset

修复启动脚本。

Livy

升级jackson-databindfastjson版本。

Zepplin

升级jackson-databindShiro版本。

HAS

升级jackson-databindfastjson版本。

Flume

升级fastjson版本。

EMR-4.3.x

发布日期

EMR-4.3.0 2020520

更新内容

服务

变更点

Ranger

  • 支持HDFS、Hive、Spark plugin自定义部署,在对应服务节点执行plugin enable操作。

  • 支持在控制台配置ranger-adminranger-usersync。

Presto

升级Kudu Client。

Spark

  • 升级至2.4.5版本。

  • 升级关联的Delta Lake0.6.0版本。

  • 修复开启Ranger Hive后,Pyspark无法正常运行的缺陷。

HDFS

  • 修复HDFS_NAMENODE_OPTS参数无法生效的缺陷。

  • 支持自定义部署。

YARN

支持自定义部署。

Hive

支持自定义部署。

Knox

适配Hadoop 3.xHDFSNameNode UI。

Zeppelin

修复生成zepping.keytab时失败的缺陷。

Kafka

升级至2.4.1版本。

Kudu

升级至1.11.1版本。

Impala

修复haproxy问题。

Livy

修复xmllint问题。

HUE

  • 支持Gateway安装HUE组件。

  • 支持单个节点开启多个HUE实例。