EMR Serverless Spark是一款云原生,专为大规模数据处理和分析而设计的全托管Serverless产品。它为企业提供了一站式的数据平台服务,包括任务开发、调试、调度和运维等,极大地简化了数据处理的全生命周期工作流程。使用EMR Serverless Spark,企业可以更专注于数据分析和价值提炼,提高工作效率。
前置概念
阅读本文前,您可能需要了解如下概念:
产品特性
构建企业级全托管的数据平台服务
易用性强
致力于为客户提供优质的产品体验。您无需构建复杂的基础设施即可开始作业开发之旅。
高性能
基于Fusion Engine (Spark Native Engine) ,性能体验最高可达开源Spark的4倍。
高扩展性
基于阿里云Serverless底座,提供资源弹性能力,满足ETL作业突发高峰的同时,进一步降低实际计算资源成本。
资源可观测
提供资源和任务实例级别的可观测指标以及告警能力。
高安全性
基于阿里云专有网络(VPC)部署,提供专有网络访问,同时提供更细力度访问控制及更高安全等级保护。
开放架构与生态集成
EMR Serverless Spark与阿里云OSS-HDFS/OSS,数据湖构建DLF,以及DataWorks无缝对接,为客户提供了最大程度的便利。
产品架构
产品优势
云原生极速计算引擎
内置Fusion Engine (Spark Native Engine),相对开源版本性能提升300%。
内置Celeborn(Remote Shuffle Service),支持PB级Shuffle数据,计算资源总成本最高下降30%。
开放化的数据湖架构
支持计算存储分离,计算可弹性伸缩,存储可按量付费。
对接OSS-HDFS,完全兼容HDFS的云上存储,无缝平滑迁移上云。
中心化的DLF元数据,全面打通湖仓元数据。
一站式的开发体验
提供作业开发、调试、发布、调度等一站式数据开发体验。
内置版本管理、开发与生产隔离,满足企业级开发与发布标准。
Serverless的资源平台
开箱即用,无需手动管理和运维云基础设施。
弹性伸缩,秒级资源弹性与供给。
按量付费,按实际计算资源量付费,进一步降低计算总成本。