Flume - 随笔分类 - CHANG_09

大数据面试题V3.0 -- Flume面试题

摘要：Flume面试题（约0.5w字）介绍下Flume Flume架构 Flume有哪些Source 说下Flume事务机制介绍下Flume采集数据的原理？底层实现？ Flume如何保证数据的可靠性 Flume传输数据时如何保证数据一致性（可靠性） Flume拦截器如何监控消费型Flume的消费情况阅读全文

posted @ 2022-06-28 15:11 CHANG_09 阅读(106) 评论(0) 推荐(0)

Flume组成：Put事务+Take事务

摘要： Source到Channel是Put事务 Channel到Sink是Take事务 doPut 先将放入 putlist commit 成功才更新 offset 失败回滚 doTake 同理 Taildir Source：断点续传、多目录。Flume1.6以前需要自己自定义Source记阅读全文

posted @ 2022-05-29 20:02 CHANG_09 阅读(74) 评论(0) 推荐(0)

Flume拦截器

摘要：（1）拦截器注意事项项目中自定义了：ETL拦截器和区分类型拦截器。采用两个拦截器优点，模块化开发和可移植性；缺点，性能会低一些（2）自定义拦截器步骤a）实现 Interceptor b）重写四个方法 initialize 初始化 public Event intercept(Even 阅读全文

posted @ 2022-05-29 20:01 CHANG_09 阅读(69) 评论(0) 推荐(0)

Flume如何实现负载均衡？

摘要：负载均衡是用于解决一台机器（一个进程）无法解决所有请求，多个进程一起处理的场景而产生的一种算法。同一个请求只能交给一个进程处理，可以避免数据重复。均衡分配请求可以采用： 1)轮询（round_robin）； 2)随机（random）。阅读全文

posted @ 2022-05-29 19:36 CHANG_09 阅读(75) 评论(0) 推荐(0)

Flume会不会出现数据重复采集？

摘要：断点续传实现flume采集的断点续传,接着崩溃的最后采集索引继续采集;对收集过的历史文件进行备份处理; 实现flume采集的断点续传,接着崩溃的最后采集索引继续采集;对收集过的历史文件进行备份处理; 消费组ID完全一样的,这样采集到的数据才不会重复的阅读全文

posted @ 2022-05-29 19:32 CHANG_09 阅读(178) 评论(0) 推荐(0)

Flume的特点

摘要：Flume是一个分布式、可靠、和高可用的海量日志采集、汇聚和传输的系统。阅读全文

posted @ 2022-05-29 19:22 CHANG_09 阅读(69) 评论(0) 推荐(0)

Flume如何保证数据不丢失？

摘要：其一：flume使用两个独立的事务分别负责从source到channel以及从channel到sink的事件传递，source向channel写数据时会先将数据写入临时缓冲区putlist，然后检查channel是否可以写入，如果写入成功会更新偏移量，如果不成功就回滚数据， channel到sink 阅读全文

posted @ 2022-05-29 19:20 CHANG_09 阅读(472) 评论(0) 推荐(0)

Flume组件

摘要：1）FileChannel和MemoryChannel区别 MemoryChannel传输数据速度更快，但因为数据保存在JVM的堆内存中，Agent进程挂掉会导致数据丢失，适用于对数据质量要求不高的需求。 FileChannel传输速度相对于Memory慢，但数据安全保障高，Agent进程挂掉也可以阅读全文

posted @ 2022-05-25 22:56 CHANG_09 阅读(99) 评论(0) 推荐(0)

Flume内存优化

摘要：1）问题描述：如果启动消费Flume抛出如下异常 ERROR hdfs.HDFSEventSink: process failed java.lang.OutOfMemoryError: GC overhead limit exceeded 2）解决方案步骤：（1）在hadoop102服务器的/o 阅读全文

posted @ 2022-05-25 22:54 CHANG_09 阅读(395) 评论(0) 推荐(0)

CHANG_09

随笔分类 - Flume

公告