EMR Serverless Spark是一款面向Data+AI的高性能Lakehouse产品。该产品为企业提供了一站式的数据平台服务,包括任务开发、调试、调度及运维等功能,显著简化了数据处理与模型训练的全流程。同时,它100%兼容开源 Spark 生态,能够无缝集成到客户现有的数据平台。通过使用EMR Serverless Spark,企业可以更加专注于数据处理分析及模型训练的优化,从而提升工作效率。
前置概念
阅读本文前,您可能需要了解如下概念:
产品特性
构建企业级全托管的数据平台服务
易用性强
致力于为客户提供优质的产品体验。您无需构建复杂的基础设施即可开始作业开发之旅。
高性能
基于Fusion Engine (Spark Native Engine) ,性能体验最高可达开源Spark的4倍。
高扩展性
基于阿里云Serverless底座,提供资源弹性能力,满足ETL作业突发高峰的同时,进一步降低实际计算资源成本。
资源可观测
提供资源和任务实例级别的可观测指标以及告警能力。
高安全性
基于阿里云专有网络(VPC)部署,提供专有网络访问,同时提供更细力度访问控制及更高安全等级保护。
开放架构与生态集成
EMR Serverless Spark与阿里云OSS-HDFS/OSS,数据湖构建DLF,以及DataWorks无缝对接,为客户提供了最大程度的便利。
产品架构
产品优势
云原生极速计算引擎
内置Fusion Engine (Spark Native Engine),相对开源版本性能提升300%。
内置Celeborn(Remote Shuffle Service),支持PB级Shuffle数据,计算资源总成本最高下降30%。
开放化的数据湖架构
支持计算存储分离,计算可弹性伸缩,存储可按量付费。
对接OSS-HDFS,完全兼容HDFS的云上存储,无缝平滑迁移上云。
中心化的DLF元数据,全面打通湖仓元数据。
一站式的开发体验
提供作业开发、调试、发布、调度等一站式数据开发体验。
内置版本管理、开发与生产隔离,满足企业级开发与发布标准。
Serverless的资源平台
开箱即用,无需手动管理和运维云基础设施。
弹性伸缩,秒级资源弹性与供给。
按量付费,按实际计算资源量付费,进一步降低计算总成本。
- 本页导读 (1)
- 前置概念
- 产品特性
- 构建企业级全托管的数据平台服务
- 开放架构与生态集成
- 产品架构
- 产品优势
- 云原生极速计算引擎
- 开放化的数据湖架构
- 一站式的开发体验
- Serverless的资源平台