选择业务场景

更新时间:2025-04-25 10:02:01

阿里云EMR针对不同业务场景提供了数据湖集群、数据分析集群、实时数据流集群、数据服务集群四类预定义业务场景。若您的业务需集成特定组合的组件,您可创建自定义集群,灵活组合EMR提供的组件,打造适配业务特性的大数据平台。本文将为您介绍这些集群的区别,帮助您快速选型。

业务场景选型

业务场景(集群类型)

支持的组件

核心能力

适用场景

业务场景(集群类型)

支持的组件

核心能力

适用场景

数据湖集群

计算引擎:Spark、Hive、Tez、Trino、Kyuubi、Presto。

数据存储:HDFS、OSS-HDFS、Celeborn、JindoCache。

数据集成:Flume、Sqoop。

数据湖格式:Hudi、Iceberg、Paimon。

资源管理:Yarn。

分布式协调服务:Zookeeper。

安全与权限:OpenLDAP、Ranger、DLF-Auth、Knox。

  • 统一存储

  • 多计算引擎兼容

  • 支持多种数据湖格式

离线ETL(例如数据仓库)、交互式查询(例如即席分析)

数据分析集群

OLAP分析引擎:StarRocks、ClickHouse、Doris。

分布式协调服务:Zookeeper。

  • 亚秒级查询响应

  • 列式存储优化

  • 联邦查询能力

复杂聚合分析(例如用户画像、人群圈选、商业智能)

实时数据流集群

流计算引擎:Flink。

数据存储:HDFS、OSS-HDFS。

数据湖格式:Paimon。

资源管理:Yarn。

分布式协调服务:Zookeeper。

安全与权限:OpenLDAP、Knox。

  • 流批一体

  • 低延迟处理

  • 状态一致性保障

实时ETL(例如流式湖仓)

数据服务集群

计算引擎:Phoenix。

列式存储引擎:HBase。

数据存储:HDFS、OSS-HDFS、JindoCache。

分布式协调服务:Zookeeper。

安全与权限:OpenLDAP、Ranger、Knox。

  • 毫秒级点查

  • SQL接口优化

  • 读写分离

高并发查询服务(例如用户行为分析、精准营销)

自定义集群

计算引擎:Spark、Hive、Tez、Trino、Kyuubi、Presto、Flink、Phoenix。

OLAP分析引擎:StarRocks。

列式存储引擎:HBase。

数据存储:HDFS、OSS-HDFS、Celeborn、JindoCache。

数据集成:Flume、Sqoop。

数据湖格式:Hudi、Iceberg、Paimon。

资源管理:Yarn。

分布式协调服务:Zookeeper。

安全与权限:OpenLDAP、Ranger、DLF-Auth、Knox。

  • 全组件灵活组合(Spark/Flink/HBase等)

  • 支持混合负载(实时+离线+分析)

说明

混合负载场景下离线业务、实时业务可能互相影响,推荐选购多种类型集群组合方案

离线ETL、实时ETL、复杂聚合分析、高并发查询服务

说明
  • 阿里云EMR的不同版本支持的组件版本各不相同,具体信息请参见各版本支持的组件,推荐优先使用最新EMR版本,以获得更全面的功能支持、性能优化及安全更新。

  • 如果自定义集群仍不能完全满足您的业务需求,您可以在评估兼容性和安全性之后自行安装所需的组件。

后续集群规划

业务场景确定后,您可以继续规划集群的存储架构元数据硬件与网络

  • 本页导读 (1)
  • 业务场景选型
  • 后续集群规划
AI助理

点击开启售前

在线咨询服务

你好,我是AI助理

可以解答问题、推荐解决方案等