随笔分类 -  Flume系列

日志等文件抓取数据框架
摘要:1 Flume Sources 1.1 Avro Source 监听Avro端口,从Avro client streams接收events。要求属性是粗体字。 agent a1例子: ipFilterRules例子: ipFilterRules=allow:ip:127.*, allow:name: 阅读全文
posted @ 2018-01-10 00:18 牧梦者 阅读(6430) 评论(0) 推荐(0) 编辑
摘要:1. Flume Interceptors Flume有能力修改/删除流程中的events。这是在拦截器(interceptor)的帮助下完成的。拦截器(Interceptors)是实现org.apache.flume.interceptor.Interceptor接口的类。一个intercepto 阅读全文
posted @ 2018-01-06 22:30 牧梦者 阅读(1052) 评论(0) 推荐(0) 编辑
摘要:1. Flume Channel Channels是events在agent上进行的存储库。Source添加events,Sink移除events。 1.1 Memory Channel(内存Channels) events存储在配置最大大小的内存队列中。对于流量较高和由于agent故障而准备丢失数 阅读全文
posted @ 2018-01-04 01:13 牧梦者 阅读(8583) 评论(0) 推荐(0) 编辑
摘要:1. Flume Sinks 1.1 HDFS Sink 该sink把events写进Hadoop分布式文件系统(HDFS)。它目前支持创建文本和序列文件。它支持在两种文件类型压缩。文件可以基于数据的经过时间或者大小或者事件的数量周期性地滚动。它还通过属性(如时间戳或发生事件的机器)把数据划分为桶或 阅读全文
posted @ 2018-01-01 23:59 牧梦者 阅读(7101) 评论(0) 推荐(0) 编辑
摘要:1. 系统要求 1. Java运行环境 —— Java 1.8及以上 2. 内存 —— 足够的内存供配置的sources,channels 或者sinks使用 3. 硬盘空间 —— 足够的硬盘空间供配置的channels或者sinks使用 4. 文件权限 —— agent使用的文件夹读写权限 2. 阅读全文
posted @ 2017-12-31 01:22 牧梦者 阅读(4222) 评论(0) 推荐(1) 编辑
摘要:概述: Apache Flume是一个分布式、可用的系统,用于从许多不同的sources有效的收集并移动大量日志数据用于集中存储数据。 架构及数据流动模型: flume实际上就是一个Agent。Agent里面包含三大组件:Source、Channel、Sink。 Flume agent流动的数据单位 阅读全文
posted @ 2017-12-24 00:43 牧梦者 阅读(2466) 评论(0) 推荐(3) 编辑