本文为您介绍E-MapReduce支持的集群类型以及各集群相关的操作。

介绍

集群 描述 重要操作
Hadoop
  • 提供半托管的Hadoop、Hive和Spark离线大规模分布式数据存储和计算。
  • 提供SparkStreaming、Flink和Storm流式数据计算。
  • 提供Presto和Impala交互式查询。
  • 提供Oozie和Pig等Hadoop生态圈的组件。
Zookeeper 提供独立的分布式一致性锁服务,适用于大规模的Hadoop集群、HBase集群和Kafka集群。 概述
DataScience 主要面向大数据+AI场景,提供Hive和Spark离线大数据ETL和TensorFlow模型训练,您可以选择CPU+GPU的异构计算框架,通过英伟达GPU对部分深度学习算法进行高性能计算。
Dataflow 是EMR平台上提供的实时计算一站式解决方案,拥有分布式的、高吞吐量和高可扩展性的消息系统Kafka和基于Apache Flink官方产品Ververica提供的Flink商业内核两大组件,专注于解决实时计算端到端的各类问题、广泛应用于实时数据ETL和日志采集分析等场景,您也可以单独使用其中任一组件。
ClickHouse 是一个面向联机分析处理(OLAP)的开源的面向列式存储的数据库管理系统。
Druid 提供半托管式实时交互式分析服务,大数据查询毫秒级延迟,支持多种数据摄入方式,可以与EMR Hadoop、EMR Spark、OSS和RDS等服务搭配组合使用,构建灵活稳健的实时查询解决方案。
Presto 是一种开源的交互式查询引擎,提供SQL on everything的能力。用于快速分析查询任何规模的数据,可以支持非关系数据源,例如,Hadoop分布式文件系统 (HDFS)、OSS、HBase、MongoDB;也可以支持关系数据源,例如 MySQL、PostgreSQL、Microsoft SQL Server 和 Teradata;还可以支持数据湖文件,例如,Iceberg和Hudi。
EMR Studio 是EMR平台上基于开源组件的大数据开发平台,提供一站式的端到端大数据开发体验。

组件

组件
文档链接
HDFS 概述
YARN 概述
Hive 概述
Spark 概述
Knox 概述
Tez 概述
Sqoop 概述
SmartData 概述
OpenLDAP 概述
Hudi 概述
Hue 概述
HBase 概述
Zookeeper 概述
Presto 概述
Imapala 概述
Zeppelin 概述
Flume 概述
Livy 概述
Ranger 概述
Phoenix 概述
ESS 概述
Alluxio 概述
Kudu 概述
Oozie 概述
组件
文档链接
Zookeeper 概述
Ganglia
组件
文档链接
Druid 概述
Superset 概述
ZooKeeper 概述
Knox 概述
OpenLDAP 概述
集群模式
组件
文档链接
Flink HDFS 概述
YARN 概述
Zookeeper 概述
Knox 概述
Flink 概述
OpenLDAP 概述
Kafka Zookeeper 概述
Ganglia
Kafka 概述
Kafka-Manager 概述
OpenLDAP 概述
Knox 概述
Ranger 概述
组件
文档链接
Knox 概述
Presto 概述
Ganglia
SmartData 概述
Hudi 概述
DeltaLake 概述
OpenLDAP 概述
Alluxio 概述