Apache Flume是一个分布式、可靠和高可用的系统,可以从大量不同的数据源有效地收集、聚合和移动日志数据,从而集中式的存储数据。Flume的核心是Agent,Agent中包含Source、Channel和Sink。

EMR-3.19.0及后续版本的集群,您可以在E-MapReduce控制台配置和管理Flume Agent。

例如,一个典型的Flume Agent拓扑结构如下图所示。flume
注意 您可以根据实际情况设置Flume Agent的拓扑结构。该拓扑结构的配置方式请参见使用说明
EMR Flume支持Kafka和阿里云LogService等多种数据源格式,并支持写入数据至HDFS、Hive、HBase以及OSS等持久化存储,使用示例如下所示: