2024-11-25版本

本文为您介绍2024年11月25日发布的EMR Serverless Spark的功能变更。

概述

2024年11月25日,我们正式对外发布Serverless Spark新版本,包括平台升级、生态对接、性能优化以及引擎能力。

平台侧

功能分类

功能更新说明

任务编排

支持调度Notebook类型任务。

任务历史

  • 支持在开发任务页面查看Stdout和Stderr日志。

  • 支持在开发任务页面查看任务粒度的Memory、CPU以及CU*时的消耗情况。

会话管理

  • Spark Thrift Server支持内网域名。

  • Spark Thrift Server支持用户自定义JAR包(仅适用于esr-2.4引擎版本及以上)。

  • Spark Thrift Server支持开启LDAP认证,以及Ranger鉴权。

  • 支持查看会话的创建时间和启动时间。

Gateway管理

  • Livy Gateway支持内网域名。

  • 支持查看Livy Gateway历史Session和Spark UI。

  • Livy Gateway创建的Session支持查看Driver日志(仅适用于esr-2.2.2引擎版本及以上)。

  • Livy Gateway支持选择自定义环境。

数据开发

  • 扩大Notebook文件大小上限。

  • 支持在Notebook中运行另一个Notebook代码。

  • PySpark任务支持选择自定义环境。

其他

  • 文件管理支持创建文件夹。

  • Spark配置输入框支持添加注释。

  • spark_submit命令支持在提交后展示Spark Driver。

引擎侧

版本号

说明

esr-3.0.0 (Spark 3.4.3, Scala 2.12)

  • Fusion加速

    • 支持Parquet读取复杂数据类型。

    • 支持Parquet写表(esr-3.0.0引擎版本及以上)。

    • 支持3 args版本的parse_url函数。

    • Parquet Datasource支持void类型。

    • 支持Parquet v2编码。

    • 支持Timestamp和String之间的互相转换。

    • from_unix_timestamp和to_unix_timestamp支持所有时区格式。

    • 合并小文件支持WriteFileExec。

    • 支持RankTopK。

    • 修复Generate算子UDF未被PullOut到上游Project算子的问题。

    • Fusion+Celeborn支持在单个进程中同时执行Java和Native Shuffle。

  • Java Runtime

    • 支持max_pt表达式。

    • 支持try语义的url_decode函数。

    • 修复Magic Committer对转义字符的处理问题。

    • 支持并发任务写入同一张表的不同分区。

    • 支持自动解冻OSS归档数据。

    • 修复了在使用spark.read接口读取Snappy压缩格式时,Snappy本地库加载失败的问题。

    • 支持直接读取原生Snappy压缩格式。

  • Paimon

    • 支持自定义湖格式JAR包。

    • 支持format table。

    • 支持nested col剪裁。

    • 优化count(*)的执行效率。

    • 支持数据库迁移(migrate database procedure)。

esr-2.4.0 (Spark 3.3.1, Scala 2.12)