阿里云EMR针对不同业务场景提供了数据湖集群、数据分析集群、实时数据流集群、数据服务集群四类预定义业务场景。若您的业务需集成特定组合的组件,您可创建自定义集群,灵活组合EMR提供的组件,打造适配业务特性的大数据平台。本文将为您介绍这些集群的区别,帮助您快速选型。
业务场景选型
业务场景(集群类型) | 支持的组件 | 核心能力 |
业务场景(集群类型) | 支持的组件 | 核心能力 | ||
计算引擎:Spark、Hive、Tez、Trino、Kyuubi、Presto。 数据存储:HDFS、OSS-HDFS、Celeborn、JindoCache。 数据集成:Flume、Sqoop。 数据湖格式:Hudi、Iceberg、Paimon。 资源管理:Yarn。 分布式协调服务:Zookeeper。 安全与权限:OpenLDAP、Ranger、DLF-Auth、Knox。 |
| 离线ETL(例如数据仓库)、交互式查询(例如即席分析) | ||
OLAP分析引擎:StarRocks、ClickHouse、Doris。 分布式协调服务:Zookeeper。 |
| 复杂聚合分析(例如用户画像、人群圈选、商业智能) | ||
流计算引擎:Flink。 数据存储:HDFS、OSS-HDFS。 数据湖格式:Paimon。 资源管理:Yarn。 分布式协调服务:Zookeeper。 安全与权限:OpenLDAP、Knox。 |
| 实时ETL(例如流式湖仓) | ||
计算引擎:Phoenix。 列式存储引擎:HBase。 数据存储:HDFS、OSS-HDFS、JindoCache。 分布式协调服务:Zookeeper。 安全与权限:OpenLDAP、Ranger、Knox。 |
| 高并发查询服务(例如用户行为分析、精准营销) | ||
自定义集群 | 计算引擎:Spark、Hive、Tez、Trino、Kyuubi、Presto、Flink、Phoenix。 OLAP分析引擎:StarRocks。 列式存储引擎:HBase。 数据存储:HDFS、OSS-HDFS、Celeborn、JindoCache。 数据集成:Flume、Sqoop。 数据湖格式:Hudi、Iceberg、Paimon。 资源管理:Yarn。 分布式协调服务:Zookeeper。 安全与权限:OpenLDAP、Ranger、DLF-Auth、Knox。 |
混合负载场景下离线业务、实时业务可能互相影响,推荐选购多种类型集群组合方案 | 离线ETL、实时ETL、复杂聚合分析、高并发查询服务 | |
阿里云EMR的不同版本支持的组件版本各不相同,具体信息请参见各版本支持的组件,推荐优先使用最新EMR版本,以获得更全面的功能支持、性能优化及安全更新。
如果自定义集群仍不能完全满足您的业务需求,您可以在评估兼容性和安全性之后自行安装所需的组件。
后续集群规划
- 本页导读 (1)
- 业务场景选型
- 后续集群规划