flume在运行中常见的问题及处理措施

我们都知道flume是用来采集日志数据的,这就带来了问题,如果数据量过大,数据格式不同,结构复杂,flume还能正常采集数据吗?

下面我们来说flume的常见的问题数据采集不全,脏数据多,采集过程中不断的产生新的数据 等等

这个就需要我们来发现问题,解决问题了常见的如下显示

source::: 是flume 采集数据的入口,监控日志的系统目录。常用的

spooling Directory source

Exec Source

Avro Source 

 

channel:::是flume采集数据的通道

capacity:

transactionCapacity:

byteCapacity

 

 

sink:::把channel的数据输出到特定的终端(常见的hdfs ,hbase ,database,avro)

特点:优化各个终端数据参入的性能

:::flume:::常见的参数对应其function

#存储的格式

a1.channels=c1

al.sources=r1

a1.sinks=k1

 

a1.channels.c1.type=?(?=menory or other)

 

a1.sources.c1.channels=c1

a1.sources.r1.type=avro/thrift

a1.sources.r1.bind=0.0.0.0

a1.sources.r1.port=8888

################sink

a1.sinks.k1.channel=c1

a1.sinks.k1.type=logger

client.type=default(for avro) or thrift(for thrift)

#default client accepts only 1 host

hosts =h1

host.h1=host1.example.org:8888 #host and port must both be specified

batch-size=100 #must be >=1(default:100)

connect-timeout=20000 #must be >=1000(default :20000)ms

request-timeout=20000#must be >=1000(default:20000)ms

 

posted @ 2017-12-25 14:07  pargramofaron  阅读(1913)  评论(0编辑  收藏  举报