flume 进阶

一、flume事务

　　put事务流程：

　　1、doPut：将批量数据先写入临时缓冲区putList

　　2、doCommit：检查Channel内存队列是否足够，

　　（1）达到一定时间没有数据写入到putList

　　（2）达到了putListCapcity容量

　　3、doRollback：Channel内存队列空间不足，回滚数据到putList，会被channel打回来

　　take事务流程：

　　1、doTake：将数据取到临时缓冲区takeList，并将数据发送到HDFS

　　2、doCommit：如果数据全部发送成功，则清除临时缓冲区takeList

　　3、doRollback：数据发送过程中如果出现异常，rollback将临时缓冲区takeList中数据全部打回给Channel内存队列

二、Flume Agent内部原理

　　重要组件：

　　1）ChannelSelector

　　　　ChannelSelector的作用就是选出event将要被发往哪个Channel。

　　　　共有两种类型：Replicating（复制）和Multiplexing（多路复用）

　　　　ReplicatingSelector会将同一个event发往所有的Channel

　　　　MultiplexingSelector会根据相应的原则，将不同的event发往不同的Channel

　　2）SinkProcessor

　　　　sinkProcessor共有三种类型：DefaultSinkProcessor、LoadBalancingProcessor和FailoverSinkProcessor

　　　　DefaultSinkProcessor：对应的是单个sink

　　　　LoadBalancingProcessor：对应的是sink group，可以实现负载均衡

　　　　FailoverSinkProcessor：对应的是sink group，可以实现故障恢复

三、flume拓扑结构

　　1、简单串联

　　　　将多个flume顺序连接起来，从最初的Source开始到最终sink传送的目的存储系统。

　　　　此模式不建议桥接过多的flume数量，flume数据过多不仅会影响传输速率，而且一旦传输过程中某个节点flume宕机，会影响整个传输系统

　　2、复制和多路复用

　　　　flume支持将事件流向一个或者多个目的地。

　　　　这种模式可以将相同数据复制到多个Channel中，或者将不同数据分发到不同的Channel中，sink可以选择传送到不同的目的地

　　3、负载均衡和故障转移

　　flume支持使用将多个sink逻辑上分到一个sink组，sink组配合不同的sinkProcessor可以实现负载均衡和错误恢复的功能

　　4、聚合

　　　　这种模式是我们最常见的，也非常实用，日常web应用通常分布在上百个服务器，大者甚至上千个、上万个服务器。产生的日志，处理　　起来也非常麻烦。

　　　　用flume的这种组合方式能很好的解决这一问题，每台服务器部署一个flume采集日志，传送到一个集中收集日志的flume，再由此flume　　上传到hdfs、hive、hbase等，进行日志分析。

posted @ 2019-11-07 15:58 hyunbar 阅读(197) 评论(1) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 25岁的心里话
· 闲置电脑爆改个人服务器（超详细） #公网映射 #Vmware虚拟网络编辑器
· 基于 Docker 搭建 FRP 内网穿透开源项目（很简单哒）
· 零经验选手，Compose 一天开发一款小游戏！
· 一起来玩mcp_server_sqlite，让AI帮你做增删改查！！

历史上的今天：
2018-11-07 状态模式

公告

昵称： hyunbar
园龄： 8年7个月
粉丝： 17
关注： 1

+加关注

2025年3月

日

一

二

三

四

五

六

hyunbar

flume 进阶

一、flume事务

put事务流程：

take事务流程：

二、Flume Agent内部原理

重要组件：

1）ChannelSelector

2）SinkProcessor

三、flume拓扑结构

1、简单串联

2、复制和多路复用

3、负载均衡和故障转移

4、聚合

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论