随笔分类 - Flume
摘要:Flume面试题(约0.5w字) 介绍下Flume Flume架构 Flume有哪些Source 说下Flume事务机制 介绍下Flume采集数据的原理?底层实现? Flume如何保证数据的可靠性 Flume传输数据时如何保证数据一致性(可靠性) Flume拦截器 如何监控消费型Flume的消费情况
阅读全文
摘要: Source到Channel是Put事务 Channel到Sink是Take事务 doPut 先将放入 putlist commit 成功 才更新 offset 失败回滚 doTake 同理 Taildir Source:断点续传、多目录。Flume1.6以前需要自己自定义Source记
阅读全文
摘要:(1)拦截器注意事项项目中自定义了:ETL拦截器和 区分类型 拦截器。 采用两个拦截器 优点,模块化开发 和 可移植性; 缺点,性能会低一些 (2)自定义拦截器步骤a)实现 Interceptor b)重写四个方法 initialize 初始化 public Event intercept(Even
阅读全文
摘要:负载均衡是用于解决一台机器(一个进程)无法解决所有请求,多个进程一起处理的场景而产生的一种算法。同一个请求只能交给一个进程处理,可以避免数据重复。均衡分配请求可以采用: 1)轮询(round_robin); 2)随机(random)。
阅读全文
摘要:断点续传 实现flume采集的断点续传,接着崩溃的最后采集索引继续采集;对收集过的历史文件进行备份处理; 实现flume采集的断点续传,接着崩溃的最后采集索引继续采集;对收集过的历史文件进行备份处理; 消费组ID完全一样的,这样采集到的数据才不会重复的
阅读全文
摘要:Flume是一个 分布式、可靠、和高可用 的 海量 日志采集、汇聚和 传输 的系统。
阅读全文
摘要:其一:flume使用两个独立的事务分别负责从source到channel以及从channel到sink的事件传递,source向channel写数据时会先将数据写入临时缓冲区putlist,然后检查channel是否可以写入,如果写入成功会更新偏移量,如果不成功就回滚数据, channel到sink
阅读全文
摘要:1)FileChannel和MemoryChannel区别 MemoryChannel传输数据速度更快,但因为数据保存在JVM的堆内存中,Agent进程挂掉会导致数据丢失,适用于对数据质量要求不高的需求。 FileChannel传输速度相对于Memory慢,但数据安全保障高,Agent进程挂掉也可以
阅读全文
摘要:1)问题描述:如果启动消费Flume抛出如下异常 ERROR hdfs.HDFSEventSink: process failed java.lang.OutOfMemoryError: GC overhead limit exceeded 2)解决方案步骤: (1)在hadoop102服务器的/o
阅读全文