Flume概述
1、Flume是java大数据中用于传输相关的一个框架;大数据是把数据的保存、传输、运算进行操作。只能进行日志的传输,对字节流无法操作
2、结构:SCK结构
Agent是JVM进程,由SCK构成
Source可以是本地文件(本地文件可以是爬虫源或者java生产源),也可以是端口。和数据源对接
Channel起缓冲作用
Sink是向外对接
3、常见配置:
Avro Source:轻量级RPC通信框架,用在多个Flume对接嵌套
Exec Source:命令行监控数据源,相当于tail -f 实时获取末尾的更新数据
Spooling,Directory:目录
Taildir Souce:监控多个目录里边动态的数据,监控本地文件
Kafka Source:监听卡夫卡
Netact Source: 监控端口的
======================
HDFS Sink:写到HDFS
Hive Sink:写到Hive
Logger Sink:打印到控制台
Avro Sink:和Avro Source共同使用,做对接
File Roll Sink:
Custom Sink:用户自定义
==========
4、基本单元:
整个过程是以事件的形式封装传输,Event是Flume的基本单元
Header+Body
如有差错,请各位指正