2025-11-12版本

本文为您介绍20251112日发布的EMR Serverless Spark的功能变更。

概述

20251112日,我们正式对外发布 Serverless Spark 新版本,包括平台管理、性能优化以及引擎能力。

平台侧

功能分类

功能更新说明

相关文档

AI 中心(Beta)

新增支持AI Function功能,提供开箱即用的Qwen大模型能力,能够有效调用大模型处理海量数据。

新增模型服务管理功能,支持注册外部模型服务,并在Serverless Spark中调用已注册的外部模型服务。

数据开发

  • 流式任务支持日志滚动查看。

  • 流任务支持配置任务失败后的自动重试策略及重试间隔时间。

批任务或流任务开发

SparkSQL 任务编辑器新增近3天运行记录与执行结果展示。

SparkSQL开发

数据目录

单工作空间支持同时添加使用HMS、DLF 1.0、DLF(原DLF 2.5)数据目录。

管理数据目录

资源管理

队列支持同时分配按量配额与包年包月配额的混合计费模式,提供结合按量付费的灵活性与包年包月的成本效益的计费策略。

管理资源队列

包年包月配额支持下调。

管理工作空间

资源观测支持按天粒度查询,可查看最近7天及30天资源用量消耗趋势。

资源观测

Gateway

Kyuubi Application支持查看任务概览、日志探查。

管理Kyuubi Gateway

Livy Gateway支持限制单用户创建的Session数量。

Livy Gateway配置示例

配置管理

  • Spark配置模板新增超时时间配置项。

  • Kyuubi Gateway、Livy Gateway支持从Spark配置模板加载配置。

管理Spark配置模板

最佳实践

通过Serverless Spark进行MinHash-LSH文本去重。

基于 MinHash-LSH 的大规模文本去重方案

支持在 SparkSQL 中注册和使用 Python UDF。

使用UDF函数

引擎侧

版本号

说明

引擎 esr-5.0.0 (Spark 4.0.1, Scala 2.13)

引擎 esr-4.6.0 (Spark 3.5.2, Scala 2.12)

引擎 esr-3.5.0 (Spark 3.4.4, Scala 2.12)

引擎 esr-2.9.0 (Spark 3.3.1, Scala 2.12)

  • Fusion加速

    • 支持shiftrightunsigned。

    • str_to_map支持last_win。

    • Parquet Write优化。

    • Commit优化。

    • Json Datasource优化。

    • Sort算子优化。

  • 湖格式

    • 【DLF】优化读写表。

    • 【DLF】支持免密访问pvfs。

    • 【DLF】支持Lance文件格式。

    • 【Paimon】支持Parquet免密。

    • 【Paimon】支持行级血缘。

    • 【Paimon】优化merge into。

    • 【Paimon】优化compaction。

  • Spark框架

    • 支持Spark4.0。

    • 支持Python UDF。

    • MC Connector支持max_pt, map_agg。

    • 支持Fast Fail。

    • 提升与Hive的兼容性。

    • 提供distcp功能。

  • DataWorks

    • 支持RDD血缘。

  • DuckDB

    • 支持读写OSS。

Celeborn

  • 稳定性优化

    • 优化Shuffle Read重试机制。

    • 优化Shuffle 资源分配。