Flume

flume
概述:Flume是一种分布式,可靠且可用的服务,用于有效地收集,聚合和移动大量日
志数据。它具有基于流数据流的简单灵活的架构。它具有可靠的可靠性机制和许多故障
转移和恢复机制,具有强大的容错性。它使用简单的可扩展数据模型,允许在线分析应
用程序。
1)数据采集(爬虫\日志数据\flume)
2)数据存储(hdfs/hive/hbase(nosql))
3)数据计算(mapreduce/hive/sparkSQL/sparkStreaming/flink)
4)数据可视化
flume角色
1)source
数据源,用户采集数据,source产生数据流,同时会把产生的数据流传输到channel。
2)channel
传输通道,用于桥接source和sink
3)sink
下沉,用于收集channel传输的数据,将数据源传递到目标源
4)event
在flume中使用事件作为传输的基本单元
flume使用
简单易用,只需要写配置文件即可
flume安装配置
1)下载
2)上传到linux
3)解压
tar -zxvf flume.jar
4)重命名
mv apache-flume-1.6.0-bin/ flume
mv flume-env.sh.template flume-env.sh
5)修改配置
vi flume-env.sh
export JAVA_HOME=/root/hd/jdk1.8.0_141
flume监听端口
启动命令:
bin/flume-ng agent 使用ng启动agent
--conf conf/ 指定配置所在的文件夹
--name a1 指定的agent别名
--conf-file conf/flumejob_telnet.conf 文件
-Dflume.root.logger=INFO,console 日志级别
flume监听本地linux文件采集到hdfs
bin/flume-ng agent --conf conf/ --name a1 --conf-file conf/flum
ejob_hdfs.conf

posted @ 2019-05-01 13:39  jareny  阅读(81)  评论(0编辑  收藏  举报