阿里云开放的大数据平台 E‑MapReduce (EMR) 提供了多种产品形态,以满足不同用户的业务需求。根据部署方式可分为 EMR Serverless Spark、EMR Serverless StarRocks、EMR on ECS 和 EMR on ACK。为帮助用户选择合适的产品,以下整理了各产品形态的主要特性、适用场景以及选型建议。
EMR Serverless Spark
EMR Serverless Spark 是一款面向 Data+AI 的高性能 Lakehouse 产品。它通过 Fusion Engine(Spark Native Engine)和阿里云 Serverless 底座,为企业提供一站式作业开发、调试、发布、调度和运维等服务。
主要特性
企业级全托管的数据平台:无需自行构建基础设施即可开始作业开发,提供任务开发、调试到运维的完整功能。
高性能计算引擎:内置 Fusion Engine,性能可达开源 Spark 的 4 倍;支持 Remote Shuffle Service Celeborn,提供 PB 级 Shuffle 能力并降低计算成本。
高扩展性与弹性:基于阿里云 Serverless 底座,提供秒级资源弹性伸缩,按实际计算资源量计费,降低成本。
资源可观测和安全:提供作业及资源层面的监控和告警;基于 VPC 部署,支持细粒度访问控制。
开放架构与生态集成:与 OSS‑HDFS、数据湖构建 DLF 以及 DataWorks 无缝集成,支持计算存储分离并共享中心化元数据。
一站式开发体验:内置版本管理、开发与生产隔离,支持作业开发、调试、发布和调度。
适用场景
希望通过全托管服务运行 Spark 作业,不愿意管理集群资源。
对弹性伸缩和按需计费要求高,需要在突发作业高峰时快速获取计算资源。
对湖仓一体或 AI 工作负载有需求,需高性能 Spark + 支持数据湖的湖仓平台。
EMR Serverless StarRocks
EMR Serverless StarRocks 是一款云原生全托管的 Lakehouse 分析服务,具备 100% 兼容开源 StarRocks 的特性,并提供企业级的核心产品能力。该服务适用于多种场景,包括 OLAP 分析、实时数据仓库、湖仓分析以及轻量级数据仓库建设等,旨在助力企业实现湖仓一体的实时数据分析业务。
主要特性
全托管免运维:开箱即用,提供可视化实例管理、智能监控与健康诊断,大幅降低运维成本。
企业级云原生内核(Stella):基于存算分离架构,深度优化存算分离、 Lakehouse 分析性能与稳定性,支持多计算组隔离,保障关键业务资源隔离。
一站式数据管理平台:集成 SQL 编辑、权限管控、物化视图、导入任务与 SQL 诊断等能力,提升开发与管理效率。
极速查询性能:MPP 分布式架构 + 全面向量化执行引擎,查询性能提升 3-10 倍。
智能查询优化:基于成本的优化器(CBO),自动选择最优执行计划,提升复杂查询效率。
实时数据更新:列式存储支持秒级导入、ACID 事务及高效 Upsert,满足实时分析需求。
湖仓一体分析:智能物化视图自动同步,简化了 ETL 过程;原生支持 Paimon、Iceberg、Hudi、Delta Lake、Hive 等数据湖格式高效查询。
适用场景
OLAP 多维分析:支持灵活的多维分析与即席查询(Ad Hoc),广泛应用于运营报表、用户画像、指标中台、BI 分析等场景,助力数据驱动决策。
实时数据仓库:秒级数据摄入与更新,适用于实时库存监控、订单追踪、用户行为分析、实时风控等高时效性要求的业务场景。
湖仓加工与分析:无缝对接 OSS、HDFS 等数据湖存储,直接查询 Paimon、Iceberg等格式,打破数据孤岛,实现高效统一分析。
EMR on ECS
EMR on ECS 指在阿里云 Elastic Compute Service (ECS) 上运行的 E‑MapReduce。EMR 利用 ECS 的弹性实例将开源 Hadoop 生态安装部署到云服务器中,并提供集群创建、扩缩容、服务配置和监控等管理功能。
主要特点
组件丰富:集成 Hadoop、Spark、Hive、Flink、Presto 等开源组件以及自研的 OSS‑HDFS、JindoCache、DLF‑Auth 等,适用批处理、流处理、数据湖等多种场景。
灵活可控:用户可登录 ECS 自定义操作。提供集群快速创建、弹性伸缩、配置管理和可视化运维能力。
稳定易用:100% 采用社区开源组件并基于云环境优化,提高性能并避免版本兼容问题。分钟级搭建大数据计算环境并支持一键调整资源规模。
成本优化:按需使用计算资源并支持包年包月或按量计费;提供自动数据冷热分层存储和丰富的运维工具以降低总体成本。
弹性伸缩:可按时间或负载动态调整集群规模,支持多种弹性资源类型。
深度集成:与阿里云 OSS、DataWorks、DLF(数据湖构建)等服务深度集成,支持在 DataWorks 使用 EMR 作为作业计算引擎。
适用场景
需要完全掌控计算和存储资源的企业级大数据平台。
对部署环境和配置有自定义需求,例如安装特定开源组件、调整内核参数等。
需要兼顾成本与性能,支持长周期运行的大批量作业或混合工作负载。
EMR on ACK
EMR on ACK 是一种将开源大数据服务部署在阿里云容器服务 Kubernetes 版(ACK)之上的架构。用户需首先准备好 ACK 集群,随后通过 EMR 在 ACK 的资源上安装并运行大数据服务。
主要特点
共享 Kubernetes 集群资源:可将 Spark、Presto 等作业运行在现有的 ACK 集群,与在线业务共享容器资源,实现计算资源跨可用区共享。
节省成本:无需单独购买 ACK 集群;复用 ACK 集群的空闲资源一键运行 EMR 作业,适合在线与离线混合部署。
简化运维:通过统一的运维体系对在线应用和大数据任务进行管理;借助 ACK 和弹性容器实例(ECI)的能力,实现更加迅速的弹性计算资源获取。
优化体验:支持针对作业级别调整 Spark 版本,以便快速试验新特性;支持 ECS 和 ACK 两种资源模型无缝切换。
深度集成数据湖架构:采用云原生数据湖架构,计算使用 ACK,存储使用 OSS,实现存储计算分离,元数据由 DLF 管理。
适用场景
已经拥有 ACK 集群并希望在同一个集群上运行大数据任务和在线应用,实现资源共池和潮汐式调度。
对容器化管理有较高需求,需要结合 Kubernetes 弹性与云原生生态(如 CI/CD、服务网格、微服务等)。
希望快速构建数据湖架构并使用 DLF 管理元数据。
选型建议
业务需求 | 推荐产品形态 | 推荐理由 | 产品运维范围 |
大规模 Spark 作业、AI 训练与推理 需要秒级弹性、按需付费,并具备湖仓一体能力。 | EMR Serverless Spark |
|
|
OLAP数据分析、湖仓加工与分析 需要高并发查询、多维分析,兼容 MySQL 协议。 | EMR Serverless StarRocks |
|
|
自定义环境与长期运行的离线作业 需要完全掌控集群资源和配置。 | EMR on ECS |
|
|
复用容器资源、在线与离线混合部署 已有 Kubernetes (ACK) 集群。 | EMR on ACK |
|
|