本文介绍阿里云EMR-3.17.0及后续版本,如何使用Gateway节点运行Flume从而进行数据同步。

背景信息

EMR-3.16.0及后续版本支持Apache Flume。EMR-3.17.0及后续版本提供默认监控等特性。

在Gateway节点运行Flume可以避免对E-MapReduce Hadoop集群产生影响。使用Gateway节点部署Flume Agent的基本数据流如下图所示。基本数据流

环境准备

本示例在华北1(杭州)进行测试,版本选择EMR- 3.17.0。

  • 创建Hadoop集群,在可选服务中选择Flume创建集群
  • 创建Gateway节点,关联已创建的Hadoop集群。

实施步骤

  • 运行Flume,请参见使用说明
  • 查看监控信息。
    默认情况下,集群服务页面提供了Flume Agent的监控信息。通过在集群与服务管理页面单击 Flume 服务进行访问,如下图所示。FLUME服务页面
    注意

    监控数据以Agent组件(Source、Channel或Sink)的名称命名。例如,CHANNEL.channel1表示名称为channel1的Channel组件的监控指标,所以在配置不同的Agent时请避免使用相同的组件名称。

    如果您想通过Ganglia等方式查看Flume Agent的监控数据,可以参考Flume官网进行配置。

  • 查看日志 。
    默认情况下,Flume agent日志的存放路径为/mnt/disk1/log/flume/${flume-agent-name}/flume.log。您可以通过修改 /etc/ecm/flume-conf/log4j.properties进行配置(不建议修改日志路径)。
    注意 日志路径包含了Flume Agent的名称,所以配置不同的Agent时请勿使用相同的Agent名称,以免日志混在一起。