E-MapReduce集群适用多种使用场景,同时支持Hadoop EcoSystem和Spark能够支持的所有场景。

E-MapReduce本质是Hadoop和Spark的集群服务,您完全可以将其使用的阿里云ECS主机视为您专属的物理主机。以下示例列出了E-MapReduce使用的经典场景:

批量数据处理

将海量日志同步到E-MapRedue的数据节点后,您可以借助于Hue等工具使用Hive、Spark和Presto等主流计算框架快速获取数据洞察力。您还可以使用Sqoop等工具加载分散于各RDS或其他存储引擎的数据,并把分析后的数据同步到RDS,为数据可视化产品提供数据支撑。

批量数据处理

Ad hoc数据分析查询

E-MapReduce将海量数据通过导入或者外表等形式引入到OLAP分析引擎里,例如,Clickhouse、Presto和Impala,提供高效、实时和灵活的数据分析能力,满足用户画像、人群圈选、BI报表和业务分析等一系列的业务场景。ad-hoc

海量数据在线服务

E-MapReduce基于Web和移动应用程序等生成的PB级别的结构化、半结构化或非结构化数据进行在线分析,以方便Web应用或者数据可视化产品获取分析结果进行实时展示。

海量数据在线服务

流式数据处理

通过Spark Streaming和Storm,使用和处理来自阿里云日志服务Log Service、阿里云消息队列ONS(Message Queue)、阿里云消息服务MNS(Message Service)、Apache Kafka或其他数据流的实时数据。

采用容错方式执行流式数据分析,并将相应结果写入阿里云对象存储服务OSS(Object Storage Service)或HDFS中。

流式数据处理