集群类型介绍与选择指南-开源大数据平台 E-MapReduce-阿里云

阿里云EMR针对不同业务场景提供了数据湖集群、数据分析集群、实时数据流集群、数据服务集群四类预定义业务场景。若您的业务需集成特定组合的组件，您可创建自定义集群，灵活组合EMR提供的组件，打造适配业务特性的大数据平台。本文将为您介绍这些集群的区别，帮助您快速选型。

业务场景选型

业务场景（集群类型）	支持的组件	核心能力	适用场景
数据湖集群	计算引擎：Spark、Hive、Tez、Trino、Kyuubi、Presto。数据存储：HDFS、OSS-HDFS、Celeborn、JindoCache。数据集成：Flume、Sqoop。数据湖格式：Hudi、Iceberg、Paimon。资源管理：Yarn。分布式协调服务：Zookeeper。安全与权限：OpenLDAP、Ranger、DLF-Auth、Knox。	统一存储多计算引擎兼容支持多种数据湖格式	离线ETL（例如数据仓库）、交互式查询（例如即席分析）





数据分析集群	OLAP分析引擎：StarRocks、ClickHouse、Doris。分布式协调服务：Zookeeper。	亚秒级查询响应列式存储优化联邦查询能力	复杂聚合分析（例如用户画像、人群圈选、商业智能）

实时数据流集群	流计算引擎：Flink。数据存储：HDFS、OSS-HDFS。数据湖格式：Paimon。资源管理：Yarn。分布式协调服务：Zookeeper。安全与权限：OpenLDAP、Knox。	流批一体低延迟处理状态一致性保障	实时ETL（例如流式湖仓）




数据服务集群	计算引擎：Phoenix。列式存储引擎：HBase。数据存储：HDFS、OSS-HDFS、JindoCache。分布式协调服务：Zookeeper。安全与权限：OpenLDAP、Ranger、Knox。	毫秒级点查 SQL接口优化读写分离	高并发查询服务（例如用户行为分析、精准营销）



自定义集群	计算引擎：Spark、Hive、Tez、Trino、Kyuubi、Presto、Flink、Phoenix。 OLAP分析引擎：StarRocks。列式存储引擎：HBase。数据存储：HDFS、OSS-HDFS、Celeborn、JindoCache。数据集成：Flume、Sqoop。数据湖格式：Hudi、Iceberg、Paimon。资源管理：Yarn。分布式协调服务：Zookeeper。安全与权限：OpenLDAP、Ranger、DLF-Auth、Knox。	全组件灵活组合（Spark/Flink/HBase等）支持混合负载（实时+离线+分析）说明混合负载场景下离线业务、实时业务可能互相影响，推荐选购多种类型集群组合方案	离线ETL、实时ETL、复杂聚合分析、高并发查询服务

说明

阿里云EMR的不同版本支持的组件版本各不相同，具体信息请参见各版本支持的组件，推荐优先使用最新EMR版本，以获得更全面的功能支持、性能优化及安全更新。
如果自定义集群仍不能完全满足您的业务需求，您可以在评估兼容性和安全性之后自行安装所需的组件。

后续集群规划

业务场景确定后，您可以继续规划集群的存储架构、元数据、硬件与网络。