2025-04-15版本

本文为您介绍20250415日发布的EMR Serverless Spark的功能变更。

概述

20250415日,我们正式对外发布Serverless Spark新版本,包括平台管理、性能优化以及引擎能力。

平台侧

功能分类

功能更新说明

相关文档

工作空间管理

在创建工作空间时,可以直接绑定标签,也可以在工作空间创建完成后,随时在工作空间列表页添加或调整标签。

管理工作空间

数据开发

SQL开发和批任务支持自定义变量管理,可简化代码的维护和调整,提升开发效率。

数据开发变量

支持在Notebook中使用Hadoop命令操作OSS/OSS-HDFS。

Notebook中使用Hadoop命令操作OSS/OSS-HDFS

流任务和批处理任务已对接云监控,支持任务超时与失败告警功能。

订阅系统事件通知

SparkSQL任务支持返回并访问对应的Spark UI链接。

访问Spark UI

支持多个Notebook共享使用Notebook会话实例。

Notebook开发快速入门

会话管理

支持查看会话运行历史。

文件管理

支持将OSS Bucket作为文件系统,以目录方式挂载到Notebook会话资源。

任务编排

支持设置工作流、节点级别的自定义变量,可简化代码的维护和调整,提升开发效率。

任务编排变量

支持补数功能。工作流以及工作流节点使用的时间变量会根据补数选择的业务时间自动替换为对应的值。

触发运行

引擎侧

版本号

说明

esr-3.4.0 (Spark 3.4.4, Scala 2.12)

正式支持Spark 3.4.4。

esr-2.6.0 (Spark 3.3.1, Scala 2.12)

esr-3.4.0 (Spark 3.4.4, Scala 2.12)

esr-4.2.0 (Spark 3.5.2, Scala 2.12)

  • Fusion加速

    • 自定义UDF性能优化。

    • Sort、First/Last、DenseRank等操作性能提升。

    • CSV Reader支持分区表。

    • from_utc_timestamp函数支持各类时区类型。

    • Spill功能进行了优化。

    • format_datetime函数支持(TIMESTAMP, VARCHAR)类型参数。

    • 在写表操作的事务提交阶段,进行优化处理,提升写表性能。

    • 新增对base64unbase64的支持。

    • 新增对array_union的支持。

  • Paimon

    • 支持删除表目录执行DROP TABLE操作。

    • 修复增量读取中删除操作的兼容性问题。

    • 支持三段式命名操作。

    • Rescale Bucket后支持增量读取。

  • Java Runtime

    • 支持静态分区的并发写入。

    • 优化Committer配置。

Celeborn

通过对DYN的优化,完成OpenStream的异步化改造,提升了系统性能与运行稳定性。