2024-08-20版本

本文为您介绍2024年8月20日发布的EMR Serverless Spark的重大功能变更。

概述

2024年8月20日,我们正式对外发布Serverless Spark新版本,包括平台升级、生态对接、性能优化以及引擎能力。

平台侧

功能分类

功能更新说明

任务开发

  • 支持开发以下任务类型:

    • SparkSQL

    • Application(批任务):JAR、PySpark、SQL、Spark Submit

    • Application(流任务):JAR、PySpark

产品与生态对接

  • 支持DataWorks与Serverless Spark的绑定。

  • 调度系统:

    • 提供Apache Airflow Operators,以及兼容Apache Airflow livy_operator。

    • 提供DolphinScheduler Operators。

  • 元数据管理:支持外部Hive Metastore作为元数据服务。

  • 接口调用:

    • 提供Spark Thrift Server服务以支持JDBC接口调用。

    • 提供Livy服务以支持REST API调用。

  • 提供spark_submit执行命令。

Notebook

  • 支持PySpark、Python以及Markdown开发。

  • 支持数据可视化功能。

Workflow

  • 支持调度SparkSQL、Application JAR、PySpark任务。

  • 支持与云监控对接以满足工作流和节点状态的告警。

  • 支持拓扑和网格视角进行工作流管理。

任务历史

支持对任务实例的内存和CPU使用情况进行统计。

资源管理

支持管理SQL Compute、Notebook Compute、Gateway、Spark Thrift Server和队列。

访问控制

控制RAM用户(子账号)的工作空间访问权限。

资源观测

  • 支持工作空间和队列维度的CU、CPU、Memory实时指标监控。

  • 支持按照时间维度进行分析和筛选。

引擎侧

引擎版本

说明

esr-2.2 (Spark 3.3.1, Scala 2.12)

  • Fusion加速

    • 支持26种常见的Spark算子,详情请参见算子

    • 支持240种常见的Spark表达式,详情请参见表达式

    • 支持12种基本数据类型,详情请参见数据类型

    • 支持Celeborn。

    • 支持读取Parquet和Paimon格式。

    • 未支持的算子或表达式将回退到Java Runtime执行。

  • Paimon:支持Append表的Update和Delete操作。

  • Hudi:修复TIMELINE_SERVER_BASED标记作业无法退出的问题。

  • Spark UI/日志优化:提升获取日志的性能。

  • JindoSDK:升级至NextArch 6.5.1,引入Committer优化(仅适用于非Fusion加速)。

  • 基础镜像:新增支持matplotlib与pandas。

  • 稳定性提升:增加RPC网络连接重试机制,确保所有执行实例能够启动。