flume在运行中常见的问题及处理措施

我们都知道flume是用来采集日志数据的，这就带来了问题，如果数据量过大，数据格式不同，结构复杂，flume还能正常采集数据吗？

下面我们来说flume的常见的问题数据采集不全，脏数据多，采集过程中不断的产生新的数据等等

这个就需要我们来发现问题，解决问题了常见的如下显示

source：：：是flume 采集数据的入口，监控日志的系统目录。常用的

spooling Directory source

Exec Source

Avro Source

channel：：：是flume采集数据的通道

capacity：

transactionCapacity:

byteCapacity

sink：：：把channel的数据输出到特定的终端（常见的hdfs ，hbase ，database，avro）

特点：优化各个终端数据参入的性能

：：：flume：：：常见的参数对应其function

#存储的格式

a1.channels=c1

al.sources=r1

a1.sinks=k1

a1.channels.c1.type=?(?=menory or other)

a1.sources.c1.channels=c1

a1.sources.r1.type=avro/thrift

a1.sources.r1.bind=0.0.0.0

a1.sources.r1.port=8888

################sink

a1.sinks.k1.channel=c1

a1.sinks.k1.type=logger

client.type=default(for avro) or thrift(for thrift)

#default client accepts only 1 host

hosts =h1

host.h1=host1.example.org:8888 #host and port must both be specified

batch-size=100 #must be >=1(default:100)

connect-timeout=20000 #must be >=1000(default :20000)ms

request-timeout=20000#must be >=1000(default:20000)ms

posted @ 2017-12-25 14:07 pargramofaron 阅读(1913) 评论(0) 编辑收藏举报

刷新页面返回顶部

pargramofaron