什么是EMR Serverless Spark

EMR Serverless Spark是一款云原生,专为大规模数据处理和分析而设计的全托管Serverless产品。它为企业提供了一站式的数据平台服务,包括任务开发、调试、调度和运维等,极大地简化了数据处理的全生命周期工作流程。使用EMR Serverless Spark,企业可以更专注于数据分析和价值提炼,提高工作效率。

前置概念

阅读本文前,您可能需要了解如下概念:

产品特性

构建企业级全托管的数据平台服务

  • 易用性强

    致力于为客户提供优质的产品体验。您无需构建复杂的基础设施即可开始作业开发之旅。

  • 高性能

    基于Fusion Engine (Spark Native Engine) ,性能体验最高可达开源Spark的4倍。

  • 高扩展性

    基于阿里云Serverless底座,提供资源弹性能力,满足ETL作业突发高峰的同时,进一步降低实际计算资源成本。

  • 资源可观测

    提供资源和任务实例级别的可观测指标以及告警能力。

  • 高安全性

    基于阿里云专有网络(VPC)部署,提供专有网络访问,同时提供更细力度访问控制及更高安全等级保护。

开放架构与生态集成

EMR Serverless Spark与阿里云OSS-HDFS/OSS,数据湖构建DLF,以及DataWorks无缝对接,为客户提供了最大程度的便利。

产品架构

image

产品优势

云原生极速计算引擎

  • 内置Fusion Engine (Spark Native Engine),相对开源版本性能提升300%。

  • 内置Celeborn(Remote Shuffle Service),支持PB级Shuffle数据,计算资源总成本最高下降30%。

开放化的数据湖架构

  • 支持计算存储分离,计算可弹性伸缩,存储可按量付费。

  • 对接OSS-HDFS,完全兼容HDFS的云上存储,无缝平滑迁移上云。

  • 中心化的DLF元数据,全面打通湖仓元数据。

一站式的开发体验

  • 提供作业开发、调试、发布、调度等一站式数据开发体验。

  • 内置版本管理、开发与生产隔离,满足企业级开发与发布标准。

Serverless的资源平台

  • 开箱即用,无需手动管理和运维云基础设施。

  • 弹性伸缩,秒级资源弹性与供给。

  • 按量付费,按实际计算资源量付费,进一步降低计算总成本。