博客园 首页 私信博主 显示目录 隐藏目录 管理 动画

Flume组成:Put事务+Take事务

​ Source到Channel是Put事务

​ Channel到Sink是Take事务

  

doPut 先将放入 putlist commit 成功 才更新 offset 失败回滚

doTake 同理

 

​ Taildir Source:断点续传、多目录。Flume1.6以前需要自己自定义Source记录每次读取文件位置,实现断点续传。

​ File Channel:数据存储在磁盘,宕机数据可以保存。但是传输速率慢。适合对数据传输可靠性要求高的场景,比如,金融行业。

​ Memory Channel:数据存储在内存中,宕机数据丢失。传输速率快。适合对数据传输可靠性要求不高的场景,比如,普通的日志数据。

​ Kafka Channel:减少了Flume的Sink阶段,提高了传输效率。

 

posted @ 2022-05-29 20:02  CHANG_09  阅读(54)  评论(0编辑  收藏  举报