产品形态选型

阿里云开放的大数据平台 E‑MapReduce (EMR) 提供了多种产品形态,以满足不同用户的业务需求。根据部署方式可分为 EMR Serverless Spark、EMR Serverless StarRocks、EMR on ECS 和 EMR on ACK。为帮助用户选择合适的产品,以下整理了各产品形态的主要特性、适用场景以及选型建议。

EMR Serverless Spark

EMR Serverless Spark 是一款面向 Data+AI 的高性能 Lakehouse 产品。它通过 Fusion Engine(Spark Native Engine)和阿里云 Serverless 底座,为企业提供一站式作业开发、调试、发布、调度和运维等服务。

主要特性

  • 企业级全托管的数据平台:无需自行构建基础设施即可开始作业开发,提供任务开发、调试到运维的完整功能。

  • 高性能计算引擎:内置 Fusion Engine,性能可达开源 Spark 的 4 倍;支持 Remote Shuffle Service Celeborn,提供 PB 级 Shuffle 能力并降低计算成本。

  • 高扩展性与弹性:基于阿里云 Serverless 底座,提供秒级资源弹性伸缩,按实际计算资源量计费,降低成本。

  • 资源可观测和安全:提供作业及资源层面的监控和告警;基于 VPC 部署,支持细粒度访问控制。

  • 开放架构与生态集成:与 OSS‑HDFS、数据湖构建 DLF 以及 DataWorks 无缝集成,支持计算存储分离并共享中心化元数据。

  • 一站式开发体验:内置版本管理、开发与生产隔离,支持作业开发、调试、发布和调度。

适用场景

  • 希望通过全托管服务运行 Spark 作业,不愿意管理集群资源。

  • 对弹性伸缩和按需计费要求高,需要在突发作业高峰时快速获取计算资源。

  • 对湖仓一体或 AI 工作负载有需求,需高性能 Spark + 支持数据湖的湖仓平台。

EMR Serverless StarRocks

EMR Serverless StarRocks 是一款云原生全托管的 Lakehouse 分析服务,具备 100% 兼容开源 StarRocks 的特性,并提供企业级的核心产品能力。该服务适用于多种场景,包括 OLAP 分析、实时数据仓库、湖仓分析以及轻量级数据仓库建设等,旨在助力企业实现湖仓一体的实时数据分析业务。

主要特性

  • 全托管免运维:开箱即用,提供可视化实例管理、智能监控与健康诊断,大幅降低运维成本。

  • 企业级云原生内核(Stella):基于存算分离架构,深度优化存算分离、 Lakehouse 分析性能与稳定性,支持多计算组隔离,保障关键业务资源隔离。

  • 一站式数据管理平台:集成 SQL 编辑、权限管控、物化视图、导入任务与 SQL 诊断等能力,提升开发与管理效率。

  • 极速查询性能:MPP 分布式架构 + 全面向量化执行引擎,查询性能提升 3-10 倍。

  • 智能查询优化:基于成本的优化器(CBO),自动选择最优执行计划,提升复杂查询效率。

  • 实时数据更新:列式存储支持秒级导入、ACID 事务及高效 Upsert,满足实时分析需求。

  • 湖仓一体分析:智能物化视图自动同步,简化了 ETL 过程;原生支持 Paimon、Iceberg、Hudi、Delta Lake、Hive 等数据湖格式高效查询。

适用场景

  • OLAP 多维分析:支持灵活的多维分析与即席查询(Ad Hoc),广泛应用于运营报表、用户画像、指标中台、BI 分析等场景,助力数据驱动决策。

  • 实时数据仓库:秒级数据摄入与更新,适用于实时库存监控、订单追踪、用户行为分析、实时风控等高时效性要求的业务场景。

  • 湖仓加工与分析:无缝对接 OSS、HDFS 等数据湖存储,直接查询 Paimon、Iceberg等格式,打破数据孤岛,实现高效统一分析。

EMR on ECS

EMR on ECS 指在阿里云 Elastic Compute Service (ECS) 上运行的 E‑MapReduce。EMR 利用 ECS 的弹性实例将开源 Hadoop 生态安装部署到云服务器中,并提供集群创建、扩缩容、服务配置和监控等管理功能。

主要特点

  • 组件丰富:集成 Hadoop、Spark、Hive、Flink、Presto 等开源组件以及自研的 OSS‑HDFS、JindoCache、DLF‑Auth 等,适用批处理、流处理、数据湖等多种场景。

  • 灵活可控:用户可登录 ECS 自定义操作。提供集群快速创建、弹性伸缩、配置管理和可视化运维能力。

  • 稳定易用:100% 采用社区开源组件并基于云环境优化,提高性能并避免版本兼容问题。分钟级搭建大数据计算环境并支持一键调整资源规模。

  • 成本优化:按需使用计算资源并支持包年包月或按量计费;提供自动数据冷热分层存储和丰富的运维工具以降低总体成本。

  • 弹性伸缩:可按时间或负载动态调整集群规模,支持多种弹性资源类型。

  • 深度集成:与阿里云 OSS、DataWorks、DLF(数据湖构建)等服务深度集成,支持在 DataWorks 使用 EMR 作为作业计算引擎。

适用场景

  • 需要完全掌控计算和存储资源的企业级大数据平台。

  • 对部署环境和配置有自定义需求,例如安装特定开源组件、调整内核参数等。

  • 需要兼顾成本与性能,支持长周期运行的大批量作业或混合工作负载。

EMR on ACK

EMR on ACK 是一种将开源大数据服务部署在阿里云容器服务 Kubernetes 版(ACK)之上的架构。用户需首先准备好 ACK 集群,随后通过 EMR 在 ACK 的资源上安装并运行大数据服务。

主要特点

  • 共享 Kubernetes 集群资源:可将 Spark、Presto 等作业运行在现有的 ACK 集群,与在线业务共享容器资源,实现计算资源跨可用区共享。

  • 节省成本:无需单独购买 ACK 集群;复用 ACK 集群的空闲资源一键运行 EMR 作业,适合在线与离线混合部署。

  • 简化运维:通过统一的运维体系对在线应用和大数据任务进行管理;借助 ACK 和弹性容器实例(ECI)的能力,实现更加迅速的弹性计算资源获取。

  • 优化体验:支持针对作业级别调整 Spark 版本,以便快速试验新特性;支持 ECS 和 ACK 两种资源模型无缝切换。

  • 深度集成数据湖架构:采用云原生数据湖架构,计算使用 ACK,存储使用 OSS,实现存储计算分离,元数据由 DLF 管理。

适用场景

  • 已经拥有 ACK 集群并希望在同一个集群上运行大数据任务和在线应用,实现资源共池和潮汐式调度。

  • 对容器化管理有较高需求,需要结合 Kubernetes 弹性与云原生生态(如 CI/CD、服务网格、微服务等)。

  • 希望快速构建数据湖架构并使用 DLF 管理元数据。

选型建议

业务需求

推荐产品形态

推荐理由

产品运维范围

大规模 Spark 作业、AI 训练与推理

需要秒级弹性、按需付费,并具备湖仓一体能力。

EMR Serverless Spark

  • Fusion Engine 性能提升至开源 Spark 的 4 倍,适合复杂湖仓和 AI 任务。

  • Serverless 底座,秒级弹性伸缩,按实际用量计费。

  • 无需运维集群,提供作业开发、调试、发布与调度的一站式体验。

  • 与 OSS-HDFS、DLF、DataWorks 深度集成。

  • 阿里云负责底层计算、存储资源、作业调度服务的可用性和可靠性。

  • 用户仅需关注作业逻辑与数据开发。

OLAP数据分析、湖仓加工与分析

需要高并发查询、多维分析,兼容 MySQL 协议。

EMR Serverless StarRocks

  • 通过向量化、MPP架构以及全新CBO等技术,为用户提供最优性能的数据分析服务。

  • 跨引擎联邦查询,多种湖格式适配,智能物化视图,为用户提供统一的湖仓加工和分析引擎。

  • 云原生与全托管服务形态,提高用户使用和运维的效率。

  • StarRocks 控制台 和 OpenAPI 的稳定性及服务保障。

  • StarRocks 实例中运行节点的稳定性及服务保障。

  • StarRocks 软件栈自身服务的稳定性及服务保障。

自定义环境与长期运行的离线作业

需要完全掌控集群资源和配置。

EMR on ECS

  • 提供全面的集群和组件服务管控能力,包括但不限于ECS故障补偿、弹性伸缩、智能诊断等。

  • 集成 Hadoop、Spark、Flink、Presto 等丰富组件,适配批处理、流处理、数据湖等场景。

  • 成本灵活,支持包年包月或按量计费。

  • 稳定性高,分钟级搭建大数据环境。

  • EMR服务提供集群和组件管控功能以及大数据组件版本管理,但大数据组件的运维由用户负责。

  • 适合具备大数据组件运维知识和能力的企业。

复用容器资源、在线与离线混合部署

已有 Kubernetes (ACK) 集群。

EMR on ACK

  • 复用现有 ACK 资源,无需额外购买集群。

  • 支持在线业务与大数据任务混合运行,降低成本。

  • 利用 ACK 弹性与 ECI,扩缩容更快。

  • 适合已建立容器化架构的企业,但不建议作为首选方案。

  • 大数据组件(如 Spark、Presto)的稳定性更多依赖用户自管。

  • 适合具备大数据组件运维知识和能力的企业。