2025-06-05

本文为您介绍20250605日发布的EMR Serverless Spark的功能变更。

概述

20250605日,我们正式对外发布Serverless Spark新版本,包括平台管理、性能优化以及引擎能力。

平台侧

功能分类

功能更新说明

相关文档

工作空间管理

支持直接创建包年包月类型的工作空间,提前预留资源,适用于预算规划明确的场景。

包年包月

Gateway

Livy Gateway支持设置Spark任务默认参数、Livy核心配置参数等。

livy.conf

支持设置关闭Livy Gateway的公网Endpoint。

管理Livy Gateway

支持高可用Kyuubi Gateway。

管理Kyuubi Gateway

支持使用REST API连接Kyuubi Gateway。

管理Kyuubi Gateway

运行环境

支持通过requirements.txt批量导入Python库。

创建运行环境

域名管理

提供域名管理功能,以解决云环境中的DNS解析问题,确保任务能够正确、高效地访问外部服务或资源。

管理域名

配置模板

支持创建多个配置模板,在提交任务时可以指定具体的配置模板,以便根据配置模板生效相应的配置信息。

配置管理

配置文件管理

支持保存配置信息和配置文件,启动Spark任务时能够自动将配置文件加载至工作目录。

配置管理

生态

  • 支持在Kyuubi、Livy Gateway中启用LDAP认证,增强安全性。

  • 支持在Kyuubi Gateway中启用Ranger鉴权,进行细粒度权限控制。

Spark Conf自定义参数

新增移除默认自带lib库,并指定Kyuubi启动Application占用的队列等参数。

Spark Conf自定义参数列表

引擎侧

版本号

说明

esr-2.7.0 (Spark 3.3.1, Scala 2.12)

esr-3.3.0 (Spark 3.4.4, Scala 2.12)

esr-4.3.0 (Spark 3.5.2, Scala 2.12)

  • Fusion加速

    • Sort算子优化。

    • Window算子优化。

    • Spill优化。

    • Shuffle Partition优化。

    • 支持Paimon Bucket Join功能。

    • 支持读取压缩格式的CSV文件。

    • UDF优化。

    • 支持函数:map_from_entries、to_json、posexplode_outer、approx_percentile、regexp_extract、map_from_arrays、timestamp_seconds、map_filter。

    • 修正Metrics数据准确性。

  • 湖格式

    • 【Paimon】修复Replace Tag NPE(空指针异常)问题。

    • 【Paimon】支持多Catalog联邦查询和写入。

    • 【Hudi】esr-2.7.0升级Hudi版本至0.15版本。

    • 支持PaimonHudi Procedure同时使用。

  • Spark框架

    • 支持在GC严重时自动失败,避免任务长时间卡死。

    • Catalog使用优化。

Celeborn

  • 支持LocalShuffleReader。

  • Skew Read性能优化。

  • 根据Worker负载动态Split,提升资源利用率。

  • Quota管理机制优化。

  • AZ(可用区)高可用性优化。