摘要:
Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流 阅读全文
摘要:
特点:flume是一个分布式、可靠、高可用的海量日志采集、聚合和传输的系统。支持在日志系统中制定各类数据发送方,用于收集数据。同时,flume提供对数据进行简单处理,并写到各种数据接收方(比如文本、hdfs、hbase等)的能力。flume的数据流由事件贯穿始终。事件是flume的基本数据单位,它携 阅读全文
摘要:
Multiplexing Channel Selector -Multiplexing Channel Selector多路复用选择器根据event的头信息中不 同键值数据来判断Event应该被写入到哪个Channel中 三种级别的Channel,分别是必选channle、可选channel、默认c 阅读全文
摘要:
Selector选择器 Source将event写入到Channel之前调用拦截器,如果配置了Interceptor拦截器,则Selector在拦截器全部处理完之后调用。通过 selector决定event写入Channel的方式 内置Replicating Channel Selector复制Ch 阅读全文
摘要:
Host Interceptor Flume使用主机戳拦截器在Event头信息中添加主机名称或者IP 主机拦截器的作用:比如Source将Event按照主机名称写入到不同的Channel中便于后续的Sink对不同Channnel中的数据分开处理 关键参数说明: type:拦截器类型为host pre 阅读全文
摘要:
Sink组件- HDFS Sink HDFS Sink将Event写入到HDFS中持久化存储 HDFS Sink提供了强大的时间戳转义功能,根据Event头信息中的 timestamp时间戳信息转义成日期格式,在HDFS中以日期目录分层存储 关键参数信息说明如下: type:Sink类型为hdfs。 阅读全文
摘要:
Sink组件 Sink:从Channel消费event,输出到外部存储,或者输出到下一个阶段的agent 一个Sink只能从一个Channel中消费event 当Sink写出event成功后,就会向Channel提交事务。Sink 事务提交成功,处理完成的event将会被Channel删除。否 则C 阅读全文
摘要:
Channel组件- File Channel File Channel:将event写入到磁盘文件中,与Memory Channel相比存 储容量大,无数据丢失风险。 File Channle数据存储路径可以配置多磁盘文件路径,提高写入文件性能 Flume将Event顺序写入到File Chann 阅读全文
摘要:
Source 组件 -Taildir source 监听一个文件夹或者文件,通过正则表达式匹配需要监听的 数据源文件,Taildir Source通过将监听的文件位置写入到文件中来实现断点续传,并且能够保证没有重复数据的读取. 重要参数 type:source类型TAILDIR positionFi 阅读全文
摘要:
Source:对接各种外部数据源,将收集到的事件发送到Channel中,一个source可以向多个channel发送event,Flume内置非常丰富的Source,同时用户可以自定义Source Source类型Type用途 Avro Source avro 启动一个Avro Server,可与上 阅读全文