打赏

随笔分类 -  Hadoop Flume概念学习系列

摘要:不多说,直接上干货! 一、自定义拦截器类型必须是:类全名$内部类名,其实就是内部类名称 如:zhouls.bigdata.MySearchAndReplaceInterceptor$Builder 二、为什么这样写 至于为什么这样写:是因为Interceptor接口还有一个 公共的内部接口(Buil 阅读全文
posted @ 2017-07-27 12:23 大数据和AI躺过的坑 阅读(12611) 评论(0) 推荐(4) 编辑
摘要:storage是存储系统,可以是一个普通file,也可以是HDFS,HIVE,HBase,分布式存储等。 Master是管理协调Agent和Collector的配置等信息,是flume集群的控制器。 阅读全文
posted @ 2017-04-29 12:54 大数据和AI躺过的坑 阅读(478) 评论(0) 推荐(0) 编辑
摘要:Collector的作用是将多个Agent的数据汇总后,加载到Storage中。它的source和sink与agent类似。 数据源(source),如: collectorSource[(port)]:Collector source,监听端口汇聚数据。 autoCollectorSource:通 阅读全文
posted @ 2017-04-29 12:53 大数据和AI躺过的坑 阅读(1145) 评论(0) 推荐(0) 编辑
摘要:Flume的sink console[("format")] :直接将将数据显示在consolr上。 text(“txtfile”):将数据写到文件txtfile中。 dfs(“dfsfile”):将数据写到HDFS上的dfsfile文件中。 syslogTcp(“host”,port):将数据通过 阅读全文
posted @ 2017-04-29 12:51 大数据和AI躺过的坑 阅读(1059) 评论(0) 推荐(0) 编辑
摘要:Flume NG传输的数据的基本单位是event,如果是文本文件,通常是一行记录,这也是事务的基本单位。 阅读全文
posted @ 2017-04-29 12:47 大数据和AI躺过的坑 阅读(692) 评论(0) 推荐(0) 编辑
摘要:Flume的Agent text(“filename”):将文件filename作为数据源,按行发送 tail(“filename”):探测filename新产生的数据,按行发送出去 fsyslogTcp(5140):监听TCP的5140端口,并且接收到的数据发送出去 tailDir(“dirnam 阅读全文
posted @ 2017-04-29 12:46 大数据和AI躺过的坑 阅读(1087) 评论(0) 推荐(0) 编辑
摘要:Channel:是一个存储地,接收source的输出,直到有sink消费掉channel中的数据。Channel中的数据直到进入到下一个channel中或者进入终端才会被删除。当sink写入失败后,可以自动重启,不会造成数据丢失,因此很可靠。 阅读全文
posted @ 2017-04-29 12:44 大数据和AI躺过的坑 阅读(1012) 评论(0) 推荐(0) 编辑
摘要:Source:从Client收集数据,传递给Channel。 可以接收外部源发送过来的数据。 不同的 source,可以接受不同的数据格式。 比如有目录池(spooling directory)数据源,可以监控指定文件夹中的新文件变化,如果目录中有文件产生,就会立刻读取其内容。 阅读全文
posted @ 2017-04-29 12:43 大数据和AI躺过的坑 阅读(642) 评论(0) 推荐(0) 编辑
摘要:Client:生产数据,运行在一个独立的线程。 阅读全文
posted @ 2017-04-29 12:42 大数据和AI躺过的坑 阅读(559) 评论(0) 推荐(0) 编辑
摘要:Event:一条数据 Client:生产数据,运行在一个独立的线程。 Agent (1)Sources、Channels、Sinks (2)其他组件:Interceptors、Channel Selectors、Sink Processor。 阅读全文
posted @ 2017-04-29 12:41 大数据和AI躺过的坑 阅读(563) 评论(0) 推荐(0) 编辑
摘要:Flume的可管理性 所有agent和Collector由master统一管理,这使得系统便于维护。 多master情况,Flume利用 ZooKeeper和gossip,保证动态配置数据的一致性。 用户可以在master上查看各个数据源或者数据流执行情况,且可以对各个数据源配置和动 态加载。 Fl 阅读全文
posted @ 2017-04-29 12:39 大数据和AI躺过的坑 阅读(600) 评论(0) 推荐(0) 编辑
摘要:Flume的可扩展性:Flume采用了三层架构,分别为agent,collector和storage,每一层均可以水平扩展。其中,所有agent和 collector由master统一管理,这使得系统容易监控和维护,且master允许有多个(使用ZooKeeper进行管理和负载均衡),这就避 免了单 阅读全文
posted @ 2017-04-29 12:37 大数据和AI躺过的坑 阅读(706) 评论(0) 推荐(0) 编辑
摘要:Flume的可靠性 当节点出现故障时,日志能够被传送到其他节点上而不会丢失。 Flume提供了三种级别的可靠性保障,从强到弱依次分别为:end-to- end(收到数据agent首先将event写到磁盘上,当数据传送成功后,再删除;如果数据发送失败,可以重新发送。), Store on failur 阅读全文
posted @ 2017-04-29 12:20 大数据和AI躺过的坑 阅读(1242) 评论(0) 推荐(0) 编辑
摘要:data flow描述了数据从产生,传输、处理并最终写入目标的一条路径。 数据的采集的流向!如下图所示。 阅读全文
posted @ 2017-04-29 12:17 大数据和AI躺过的坑 阅读(1073) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上干货! Flume Sources官网剖析(博主推荐) Flume Channels官网剖析(博主推荐) Flume Channel Selectors官网剖析(博主推荐) Flume Sinks官网剖析(博主推荐) Flume Sink Processors官网剖析(博主推荐) Ev 阅读全文
posted @ 2017-04-25 15:40 大数据和AI躺过的坑 阅读(440) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上干货! Flume Sources官网剖析(博主推荐) Flume Channels官网剖析(博主推荐) Flume Channel Selectors官网剖析(博主推荐) Flume Sinks官网剖析(博主推荐) Flume Sink Processors官网剖析(博主推荐) 一切 阅读全文
posted @ 2017-04-25 15:35 大数据和AI躺过的坑 阅读(260) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上干货! Flume Sources官网剖析(博主推荐) Flume Channels官网剖析(博主推荐) Flume Channel Selectors官网剖析(博主推荐) Flume Sinks官网剖析(博主推荐) 一切来源于flume官网 Flume Sink Processors 阅读全文
posted @ 2017-04-25 15:32 大数据和AI躺过的坑 阅读(487) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上干货! Flume Sources官网剖析(博主推荐) Flume Channels官网剖析(博主推荐) Flume Channel Selectors官网剖析(博主推荐) 一切来源于flume官网 Flume Sinks HDFS Sink Hive Sink Logger Sink 阅读全文
posted @ 2017-04-25 15:28 大数据和AI躺过的坑 阅读(748) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上干货! Flume Sources官网剖析(博主推荐) Flume Channels官网剖析(博主推荐) 一切来源于flume官网 Flume Channel Selectors Replicating Channel Selector (default) Multiplexing C 阅读全文
posted @ 2017-04-25 15:07 大数据和AI躺过的坑 阅读(328) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上干货! Flume Sources官网剖析(博主推荐) 一切来源于flume官网 Flume Channels Memory Channel JDBC Channel Kafka Channel File Channel Spillable Memory Channel Pseudo 阅读全文
posted @ 2017-04-25 14:55 大数据和AI躺过的坑 阅读(741) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示