Flume - [02] Spooling Directory Source

 

一、概述

  可以通过将文件放入磁盘上的 "Spooldir" 目录中来获取数据。此源会监视指定目录中的新文件,并在新文件出现时解析新文件中的事件。事件解析逻辑是可插入的。在将指定文件完全读取到通道后,默认情况下通过重命名文件来指示文件来指示完成,或者可以删除它,或者使用 trackerDir 跟踪处理过的文件。

 

二、和Exec Source的区别

  这个Source 相对 Exec Source 来说,是可靠的,并且不会丢失数据,即使 Flume 重新启动或关闭,作为这种可靠性的交换,只有不可变的、唯一命名的文件必须被放到 Sqooldir 目录中。
  为了避免文件在放入被监视的目录被写入,Flume会将其日志文件打印错误并停止处理以及重用文件名,Flume将其在日志文件上打印错误并停止处理的问题,在文件名被移动到被监视的目录中时,添加唯一标识符来记录文件名可能是有用的。

a1.channels = c1
a1.sources = r1

a1.sources.r1.type = spooldir   #source的类型
a1.sources.r1.channels = c1
a1.sources.r1.spoolDir = /dir   #被监视的目录
a1.sources.r1.fileHeader = true #显示文件头

 

三、示例

# flume配置的例子
# Name the components on this agent
# source:起一个别名
# properties文件它是java的配置文件,=左边就是键,=右边是值;键的开头都是以a1(就是flume的名字--agent的名字就是a1);a1随便起
a1.sources = r1
# sink:起一个别名
a1.sinks = k1
# channels;:起一个别名
a1.channels = c1
 
# Describe/configure the source
# spooldir:监控硬盘上指定的某个目录,如果文件发生变化,会被flume捕获;
a1.sources.r1.type = spooldir
# 要监控的目录,此目录必须存在
a1.sources.r1.spoolDir =/root/flume/
# 已经完成的文件,会加上一个后缀
a1.sources.r1.fileSuffix =.ok
# 已经完成的文件,会立即删除,默认值是never;(永不删除)
# a1.sources.r1.deletePolicy =immediate
# 是否添加存储绝对路径文件名的标题
a1.sources.r1.fileHeader = true
# 增加文件名到header中
a1.sources.r1.basenameHeader = true
# 只处理此目录下面的txt文件;
a1.sources.r1.includePattern =^[\\w]+\\.txt$
 
# Describe the sink
# 描述一个sink: logger日志(打印到控制台上)
a1.sinks.k1.type = logger
 
# Use a channel which buffers events in memory
# 描述一下channel:内存
a1.channels.c1.type = memory
# capacity:容量
a1.channels.c1.capacity = 1000000
# transactionCapacity:事务的容量
a1.channels.c1.transactionCapacity = 1000000
 
# Bind the source and sink to the channel
# 绑定;source和channel绑定
a1.sources.r1.channels = c1
# sink和channel绑定
a1.sinks.k1.channel = c1

验证方法

1、在本地启动flume

2、然后在被监视的目录中创建文件或者将文件移动到该目录下

3、flume即可将监视到的目录中文件的数据收集到

 

 

— 要养成终生学习的习惯 —

posted @ 2024-03-20 20:04  HOUHUILIN  阅读(51)  评论(0编辑  收藏  举报