flume在运行中常见的问题及处理措施
我们都知道flume是用来采集日志数据的,这就带来了问题,如果数据量过大,数据格式不同,结构复杂,flume还能正常采集数据吗?
下面我们来说flume的常见的问题数据采集不全,脏数据多,采集过程中不断的产生新的数据 等等
这个就需要我们来发现问题,解决问题了常见的如下显示
source::: 是flume 采集数据的入口,监控日志的系统目录。常用的
spooling Directory source
Exec Source
Avro Source
channel:::是flume采集数据的通道
capacity:
transactionCapacity:
byteCapacity
sink:::把channel的数据输出到特定的终端(常见的hdfs ,hbase ,database,avro)
特点:优化各个终端数据参入的性能
:::flume:::常见的参数对应其function
#存储的格式
a1.channels=c1
al.sources=r1
a1.sinks=k1
a1.channels.c1.type=?(?=menory or other)
a1.sources.c1.channels=c1
a1.sources.r1.type=avro/thrift
a1.sources.r1.bind=0.0.0.0
a1.sources.r1.port=8888
################sink
a1.sinks.k1.channel=c1
a1.sinks.k1.type=logger
client.type=default(for avro) or thrift(for thrift)
#default client accepts only 1 host
hosts =h1
host.h1=host1.example.org:8888 #host and port must both be specified
batch-size=100 #must be >=1(default:100)
connect-timeout=20000 #must be >=1000(default :20000)ms
request-timeout=20000#must be >=1000(default:20000)ms