Kafka广泛用于日志收集、监控数据聚合等场景,支持离线或流式数据处理、实时数据分析等。本文主要介绍Kafka数据导入到JindoFS的几种方式。
常见Kafka数据导入方式
- 通过Flume导入
推荐使用Flume方式导入到JindoFS,利用Flume对HDFS的支持,替换路径到JindoFS即可完成。
a1.sinks = emr-jfs ... a1.sinks.emr-jfs.type = hdfs a1.sinks.emr-jfs.hdfs.path = jfs://emr-jfs/kafka/%{topic}/%y-%m-%d a1.sinks.emr-jfs.hdfs.rollInterval = 10 a1.sinks.emr-jfs.hdfs.rollSize = 0 a1.sinks.emr-jfs.hdfs.rollCount = 0 a1.sinks.emr-jfs.hdfs.fileType = DataStream
- 通过调用Kafka API导入
对于MapReduce、Spark以及其他调用Kafka API导入数据的方式,只需引用Hadoop FileSystem,然后使用JindoFS的路径写入即可。
- 通过Kafka Connector导入
使用Kafka HDFS Connector也可以把Kafka数据导入到Hadoop生态,将sink的输出路径替换成JindoFS的路径即可。