什么是EMR Serverless Spark

EMR Serverless Spark是一款面向Data+AI的高性能Lakehouse产品。该产品为企业提供了一站式的数据平台服务,包括任务开发、调试、调度及运维等功能,显著简化了数据处理与模型训练的全流程。同时,它100%兼容开源Spark生态,能够无缝集成到客户现有的数据平台。通过使用EMR Serverless Spark,企业可以更加专注于数据处理分析及模型训练的优化,从而提升工作效率。

前置概念

阅读本文前,您可能需要了解如下概念:

产品架构

image

EMR Serverless Spark的架构分为以下四层:

  • 应用场景层

    EMR Serverless Spark致力于满足多样化的数据需求。针对数据仓库和BI分析场景,通过SQL编辑器提供低门槛的数据查询与报表开发功能,同时兼容传统数据仓库的使用习惯场景。在人工智能与数据科学领域,集成了支持Python环境管理和交互式机器学习开发的Notebook功能。其设计理念是打造一个统一平台,融合多种应用场景,让用户无需切换工具即可高效完成从数据分析到模型训练的全流程工作。

  • 平台能力层

    该系统主要为上层场景提供支撑,通过工作流编排实现批处理、流计算以及人工智能作业的多场景混合调度。无论是ETL任务、实时分析还是机器学习训练,均可在同一管道中完成编排,从而避免多系统割裂所带来的问题。同时,所有操作均可通过RAM认证和鉴权进行管理,细粒度地控制对资源、数据及功能的访问权限,以确保企业级安全。此外,SQLNotebook开发分别优化了数据仓库和人工智能开发的体验,而Notebook、Kyuubi以及Livy服务则为开发者提供了灵活的编程接口和任务提交服务。

  • 核心引擎层

    • Fusion引擎:专为CPU密集型场景设计,提供基于C++的向量化SQL引擎。与JVM相比,Fusion引擎能够更充分地利用SIMD指令集,不仅提高了CPU的利用率,还降低了内存开销。

    • Celeborn:企业级Remote Shuffle Service,支持IO密集型场景的多租户隔离和资源弹性。

  • 湖仓存储层

    基于开放数据湖格式PaimonIceberg,在保留数据湖灵活性的同时,赋予了传统数据仓库关键能力,如ACID事务、高效的数据Upsert以及完整的血缘记录等。

产品优势

云原生极速计算引擎

  • 内置Fusion Engine (Spark Native Engine):相对开源版本性能提升300%,显著加速大数据计算任务。通过向量化引擎和批量数据处理技术优化计算效率,同时减少内存占用,大幅提升整体性能。

  • 内置Celeborn(Remote Shuffle Service):支持PBShuffle数据处理,大幅提高大Shuffle任务的稳定性和性能。计算节点无需配置大规格云盘,充分利用Spark的动态资源伸缩能力,降低存储成本,计算资源总成本最高下降30%。

灵活扩展与资源高效利用

  • 按需弹性伸缩:支持计算与存储分离架构,计算资源可实现秒级弹性伸缩,最小粒度为1核,精细化按任务或队列级别进行资源计量。存储采用按量付费模式,避免资源浪费,大幅降低企业运营成本。

  • 无缝迁移与兼容性:对接OSS-HDFS,完全兼容HDFS的云上存储,支持用户业务平滑迁移上云。通过DLF实现湖仓元数据全面打通,确保数据访问一致性与权限管理完整性,助力企业轻松构建现代化数据湖仓架构。

生态无缝兼容

  • 全面兼容开源Spark:无需修改代码即可直接运行,提供用法兼容的spark-submitspark-sql工具,降低迁移门槛。

  • 深度集成主流湖仓格式:全面支持Apache Paimon、Iceberg、Delta、Hudi等主流湖仓格式,满足多样化数据存储需求。

  • 调度系统与安全能力:支持与Apache Airflow、Apache DolphinScheduler等主流调度系统对接;能够对接外部Kerberos/LDAP开启身份认证,并通过Apache Ranger实现数据鉴权,保障数据安全。

  • 机器学习适配:内置SparkML环境与Notebook,支持Python三方库全生命周期管理。

一站式的开发体验

  • 全流程开发支持:提供从任务开发、调试、发布到调度的一站式开发体验,满足企业级开发与发布的高标准需求。内置版本管理功能,完整记录每次发布历史,支持源码与配置差异对比,确保变更可追溯。

  • 高效协作与稳定性保障:开发与生产环境严格隔离,保障业务稳定性,助力团队高效协作与稳定交付。

Serverless的资源平台

  • 开箱即用:无需手动管理和复杂的基础设施搭建,即可快速启动任务开发。

  • 秒级弹性:基于Spark任务的资源需求,动态拉取资源启动Pod,运算完毕后立即释放资源,计费仅针对实际使用的资源量,进一步降低计算总成本。

  • 成本预估:提供任务级别的资源计量与成本预估,帮助企业实现精细化运营。

产品计费

支持的计费方式如下:

  • 包年包月:按一定时长购买资源,先付费后使用。

  • 按量付费:按需开通和释放资源,先使用后付费。

如何使用

  • EMR Serverless Spark控制台:交互式操作的Web服务页面。

  • API:支持GETPOST请求的RPC风格API。关于API接口详情,请参见API参考。以下为调用API常用开发者工具:

    • OpenAPI开发者门户:提供快速检索接口、在线调用API和动态生成SDK示例代码等服务。

    • 阿里云SDK:提供Java、Python、PHP等多种编程语言的SDK。