本文为您介绍E-MapReduce支持的集群类型以及各集群相关的操作。
介绍
集群 | 描述 | 重要操作 |
---|---|---|
Hadoop |
| |
Zookeeper | 提供独立的分布式一致性锁服务,适用于大规模的Hadoop集群、HBase集群和Kafka集群。 | 概述 |
DataScience | 主要面向大数据+AI场景,提供Hive和Spark离线大数据ETL和TensorFlow模型训练,您可以选择CPU+GPU的异构计算框架,通过英伟达GPU对部分深度学习算法进行高性能计算。 | |
Dataflow | 是EMR平台上提供的实时计算一站式解决方案,拥有分布式的、高吞吐量和高可扩展性的消息系统Kafka和基于Apache Flink官方产品Ververica提供的Flink商业内核两大组件,专注于解决实时计算端到端的各类问题、广泛应用于实时数据ETL和日志采集分析等场景,您也可以单独使用其中任一组件。 | |
ClickHouse | 是一个面向联机分析处理(OLAP)的开源的面向列式存储的数据库管理系统。 | |
Druid | 提供半托管式实时交互式分析服务,大数据查询毫秒级延迟,支持多种数据摄入方式,可以与EMR Hadoop、EMR Spark、OSS和RDS等服务搭配组合使用,构建灵活稳健的实时查询解决方案。 | |
Presto | 是一种开源的交互式查询引擎,提供SQL on everything的能力。用于快速分析查询任何规模的数据,可以支持非关系数据源,例如,Hadoop分布式文件系统 (HDFS)、OSS、HBase、MongoDB;也可以支持关系数据源,例如 MySQL、PostgreSQL、Microsoft SQL Server 和 Teradata;还可以支持数据湖文件,例如,Iceberg和Hudi。 | |
EMR Studio | 是EMR平台上基于开源组件的大数据开发平台,提供一站式的端到端大数据开发体验。 |
组件
组件 |
文档链接 |
HDFS | 概述 |
YARN | 概述 |
Hive | 概述 |
Spark | 概述 |
Knox | 概述 |
Tez | 概述 |
Sqoop | 概述 |
SmartData | 概述 |
OpenLDAP | 概述 |
Hudi | 概述 |
Hue | 概述 |
HBase | 概述 |
Zookeeper | 概述 |
Presto | 概述 |
impala | 概述 |
Zeppelin | 概述 |
Flume | 概述 |
Livy | 概述 |
Ranger | 概述 |
Phoenix | 概述 |
ESS | 概述 |
Alluxio | 概述 |
Kudu | 概述 |
组件 |
文档链接 |
Zookeeper | 概述 |
Ganglia | 无 |
组件 |
文档链接 |
Faiss-Server | Faiss-Server概述 |
Kubeflow | |
GKS | GKS |