博客园 首页 私信博主 显示目录 隐藏目录 管理 动画

随笔分类 -  Flume

摘要:Flume面试题(约0.5w字) 介绍下Flume Flume架构 Flume有哪些Source 说下Flume事务机制 介绍下Flume采集数据的原理?底层实现? Flume如何保证数据的可靠性 Flume传输数据时如何保证数据一致性(可靠性) Flume拦截器 如何监控消费型Flume的消费情况 阅读全文
posted @ 2022-06-28 15:11 CHANG_09 阅读(86) 评论(0) 推荐(0) 编辑
摘要:​ Source到Channel是Put事务 ​ Channel到Sink是Take事务 doPut 先将放入 putlist commit 成功 才更新 offset 失败回滚 doTake 同理 ​ Taildir Source:断点续传、多目录。Flume1.6以前需要自己自定义Source记 阅读全文
posted @ 2022-05-29 20:02 CHANG_09 阅读(58) 评论(0) 推荐(0) 编辑
摘要:(1)拦截器注意事项项目中自定义了:ETL拦截器和 区分类型 拦截器。 采用两个拦截器 优点,模块化开发 和 可移植性; 缺点,性能会低一些 (2)自定义拦截器步骤a)实现 Interceptor b)重写四个方法 initialize 初始化 public Event intercept(Even 阅读全文
posted @ 2022-05-29 20:01 CHANG_09 阅读(55) 评论(0) 推荐(0) 编辑
摘要:负载均衡是用于解决一台机器(一个进程)无法解决所有请求,多个进程一起处理的场景而产生的一种算法。同一个请求只能交给一个进程处理,可以避免数据重复。均衡分配请求可以采用: 1)轮询(round_robin); 2)随机(random)。 阅读全文
posted @ 2022-05-29 19:36 CHANG_09 阅读(60) 评论(0) 推荐(0) 编辑
摘要:断点续传 实现flume采集的断点续传,接着崩溃的最后采集索引继续采集;对收集过的历史文件进行备份处理; 实现flume采集的断点续传,接着崩溃的最后采集索引继续采集;对收集过的历史文件进行备份处理; 消费组ID完全一样的,这样采集到的数据才不会重复的 阅读全文
posted @ 2022-05-29 19:32 CHANG_09 阅读(149) 评论(0) 推荐(0) 编辑
摘要:Flume是一个 分布式、可靠、和高可用 的 海量 日志采集、汇聚和 传输 的系统。 阅读全文
posted @ 2022-05-29 19:22 CHANG_09 阅读(59) 评论(0) 推荐(0) 编辑
摘要:其一:flume使用两个独立的事务分别负责从source到channel以及从channel到sink的事件传递,source向channel写数据时会先将数据写入临时缓冲区putlist,然后检查channel是否可以写入,如果写入成功会更新偏移量,如果不成功就回滚数据, channel到sink 阅读全文
posted @ 2022-05-29 19:20 CHANG_09 阅读(442) 评论(0) 推荐(0) 编辑
摘要:1)FileChannel和MemoryChannel区别 MemoryChannel传输数据速度更快,但因为数据保存在JVM的堆内存中,Agent进程挂掉会导致数据丢失,适用于对数据质量要求不高的需求。 FileChannel传输速度相对于Memory慢,但数据安全保障高,Agent进程挂掉也可以 阅读全文
posted @ 2022-05-25 22:56 CHANG_09 阅读(78) 评论(0) 推荐(0) 编辑
摘要:1)问题描述:如果启动消费Flume抛出如下异常 ERROR hdfs.HDFSEventSink: process failed java.lang.OutOfMemoryError: GC overhead limit exceeded 2)解决方案步骤: (1)在hadoop102服务器的/o 阅读全文
posted @ 2022-05-25 22:54 CHANG_09 阅读(344) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示