随笔分类 - Hadoop Flume概念学习系列

Flume自定义拦截器（Interceptors）或自带拦截器时的一些经验技巧总结（图文详解）

摘要：不多说，直接上干货！一、自定义拦截器类型必须是：类全名$内部类名，其实就是内部类名称如：zhouls.bigdata.MySearchAndReplaceInterceptor$Builder 二、为什么这样写至于为什么这样写：是因为Interceptor接口还有一个公共的内部接口（Buil 阅读全文

posted @ 2017-07-27 12:23 大数据和AI躺过的坑阅读(12611) 评论(0) 推荐(4) 编辑

Flume的Storage&Master

摘要：storage是存储系统，可以是一个普通file，也可以是HDFS，HIVE，HBase，分布式存储等。 Master是管理协调Agent和Collector的配置等信息，是flume集群的控制器。阅读全文

posted @ 2017-04-29 12:54 大数据和AI躺过的坑阅读(478) 评论(0) 推荐(0) 编辑

Flume的Collector

摘要：Collector的作用是将多个Agent的数据汇总后，加载到Storage中。它的source和sink与agent类似。数据源（source），如： collectorSource[(port)]：Collector source，监听端口汇聚数据。 autoCollectorSource：通阅读全文

posted @ 2017-04-29 12:53 大数据和AI躺过的坑阅读(1145) 评论(0) 推荐(0) 编辑

Flume的sink

摘要：Flume的sink console[("format")] ：直接将将数据显示在consolr上。 text(“txtfile”)：将数据写到文件txtfile中。 dfs(“dfsfile”)：将数据写到HDFS上的dfsfile文件中。 syslogTcp(“host”,port)：将数据通过阅读全文

posted @ 2017-04-29 12:51 大数据和AI躺过的坑阅读(1059) 评论(0) 推荐(0) 编辑

Flume的Events

摘要：Flume NG传输的数据的基本单位是event，如果是文本文件，通常是一行记录，这也是事务的基本单位。阅读全文

posted @ 2017-04-29 12:47 大数据和AI躺过的坑阅读(692) 评论(0) 推荐(0) 编辑

Flume的Agent

摘要：Flume的Agent text(“filename”)：将文件filename作为数据源，按行发送 tail(“filename”)：探测filename新产生的数据，按行发送出去 fsyslogTcp(5140)：监听TCP的5140端口，并且接收到的数据发送出去 tailDir(“dirnam 阅读全文

posted @ 2017-04-29 12:46 大数据和AI躺过的坑阅读(1087) 评论(0) 推荐(0) 编辑

Flume的Channel

摘要：Channel：是一个存储地，接收source的输出，直到有sink消费掉channel中的数据。Channel中的数据直到进入到下一个channel中或者进入终端才会被删除。当sink写入失败后，可以自动重启，不会造成数据丢失，因此很可靠。阅读全文

posted @ 2017-04-29 12:44 大数据和AI躺过的坑阅读(1012) 评论(0) 推荐(0) 编辑

Flume的Source

摘要：Source：从Client收集数据，传递给Channel。可以接收外部源发送过来的数据。不同的 source，可以接受不同的数据格式。比如有目录池(spooling directory)数据源，可以监控指定文件夹中的新文件变化，如果目录中有文件产生，就会立刻读取其内容。阅读全文

posted @ 2017-04-29 12:43 大数据和AI躺过的坑阅读(642) 评论(0) 推荐(0) 编辑

Flume的client

摘要：Client：生产数据，运行在一个独立的线程。阅读全文

posted @ 2017-04-29 12:42 大数据和AI躺过的坑阅读(559) 评论(0) 推荐(0) 编辑

Flume的核心概念

摘要：Event:一条数据 Client:生产数据，运行在一个独立的线程。 Agent （1）Sources、Channels、Sinks （2）其他组件：Interceptors、Channel Selectors、Sink Processor。阅读全文

posted @ 2017-04-29 12:41 大数据和AI躺过的坑阅读(563) 评论(0) 推荐(0) 编辑

Flume的可管理性

摘要：Flume的可管理性所有agent和Collector由master统一管理，这使得系统便于维护。多master情况，Flume利用 ZooKeeper和gossip，保证动态配置数据的一致性。用户可以在master上查看各个数据源或者数据流执行情况，且可以对各个数据源配置和动态加载。 Fl 阅读全文

posted @ 2017-04-29 12:39 大数据和AI躺过的坑阅读(600) 评论(0) 推荐(0) 编辑

Flume的可扩展性

摘要：Flume的可扩展性：Flume采用了三层架构，分别为agent，collector和storage，每一层均可以水平扩展。其中，所有agent和 collector由master统一管理，这使得系统容易监控和维护，且master允许有多个（使用ZooKeeper进行管理和负载均衡），这就避免了单阅读全文

posted @ 2017-04-29 12:37 大数据和AI躺过的坑阅读(706) 评论(0) 推荐(0) 编辑

Flume的可靠性

摘要：Flume的可靠性当节点出现故障时，日志能够被传送到其他节点上而不会丢失。 Flume提供了三种级别的可靠性保障，从强到弱依次分别为：end-to- end（收到数据agent首先将event写到磁盘上，当数据传送成功后，再删除；如果数据发送失败，可以重新发送。）， Store on failur 阅读全文

posted @ 2017-04-29 12:20 大数据和AI躺过的坑阅读(1242) 评论(0) 推荐(0) 编辑

Flume的data flow（数据流）

摘要：data flow描述了数据从产生，传输、处理并最终写入目标的一条路径。数据的采集的流向！如下图所示。阅读全文

posted @ 2017-04-29 12:17 大数据和AI躺过的坑阅读(1073) 评论(0) 推荐(0) 编辑

Flume Interceptors官网剖析（博主推荐）

摘要：不多说，直接上干货！ Flume Sources官网剖析(博主推荐） Flume Channels官网剖析(博主推荐） Flume Channel Selectors官网剖析(博主推荐） Flume Sinks官网剖析（博主推荐） Flume Sink Processors官网剖析（博主推荐） Ev 阅读全文

posted @ 2017-04-25 15:40 大数据和AI躺过的坑阅读(440) 评论(0) 推荐(0) 编辑

Event Serializers官网剖析（博主推荐）

摘要：不多说，直接上干货！ Flume Sources官网剖析(博主推荐） Flume Channels官网剖析(博主推荐） Flume Channel Selectors官网剖析(博主推荐） Flume Sinks官网剖析（博主推荐） Flume Sink Processors官网剖析（博主推荐）一切阅读全文

posted @ 2017-04-25 15:35 大数据和AI躺过的坑阅读(260) 评论(0) 推荐(0) 编辑

Flume Sink Processors官网剖析（博主推荐）

摘要：不多说，直接上干货！ Flume Sources官网剖析(博主推荐） Flume Channels官网剖析(博主推荐） Flume Channel Selectors官网剖析(博主推荐） Flume Sinks官网剖析（博主推荐）一切来源于flume官网 Flume Sink Processors 阅读全文

posted @ 2017-04-25 15:32 大数据和AI躺过的坑阅读(487) 评论(0) 推荐(0) 编辑

Flume Sinks官网剖析（博主推荐）

摘要：不多说，直接上干货！ Flume Sources官网剖析(博主推荐） Flume Channels官网剖析(博主推荐） Flume Channel Selectors官网剖析(博主推荐）一切来源于flume官网 Flume Sinks HDFS Sink Hive Sink Logger Sink 阅读全文

posted @ 2017-04-25 15:28 大数据和AI躺过的坑阅读(748) 评论(0) 推荐(0) 编辑

Flume Channel Selectors官网剖析(博主推荐）

摘要：不多说，直接上干货！ Flume Sources官网剖析(博主推荐） Flume Channels官网剖析(博主推荐）一切来源于flume官网 Flume Channel Selectors Replicating Channel Selector (default) Multiplexing C 阅读全文

posted @ 2017-04-25 15:07 大数据和AI躺过的坑阅读(328) 评论(0) 推荐(0) 编辑

Flume Channels官网剖析(博主推荐）

摘要：不多说，直接上干货！ Flume Sources官网剖析(博主推荐）一切来源于flume官网 Flume Channels Memory Channel JDBC Channel Kafka Channel File Channel Spillable Memory Channel Pseudo 阅读全文

posted @ 2017-04-25 14:55 大数据和AI躺过的坑阅读(741) 评论(0) 推荐(0) 编辑

公告

欢迎您来到《大数据和人工智能躺过的坑》的3D彩色云标签，让您多份关注与留念。微信公众号平台1：大数据躺过的坑微信公众号平台2：今日热点在线微信公众号平台3 ：九哥九嫂小日子大数据和人工智能躺过的坑（总群）： 161156071 更多QQ技术分群，详情请见：http://www.cnblogs.com/zlslch/p/7473861.html

昵称：大数据和AI躺过的坑
园龄： 9年3个月
粉丝： 1315
关注： 39

+加关注

2025年3月

日

一

二

三

四

五

六

大数据和人工智能躺过的坑

随笔分类 - Hadoop Flume概念学习系列

公告

搜索

常用链接

积分与排名

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论