RICH-ATONE

Flume对接Kafka Source基础配置

#组件 

#a1为定义的name
a1.sources=r1
a1.channels=c1
a1.sinks=k1

#source

a1.sources.r1.type = org.apache.flume.source.kafka.KafkaSource             #定义source类型为Kafka Source
a1.sources.r1.batchSize = 5000                                                                   #批量写入通道的最大消息数
a1.sources.r1.batchDurationMillis = 2000                                                    #将批处理写入通道之前的最长时间(以毫秒为单位)
a1.sources.r1.kafka.bootstrap.servers = 192.168.x.xx:9092,192.168.x.xx:9092,192.168.x.xx:9092  #kafka集群地址
a1.sources.r1.kafka.topics = cp_udplog                                                       #监控的kafka topic名称
a1.sources.r1.kafka.consumer.group.id = custom.g.id                                 #定义消费者组
a1.sources.r1.kafka.consumer.auto.offset.reset = earliest                           #定义消费者的消费位置

#channel

a1.channels.c1.type = file #定义channel的方式
a1.channels.c1.checkpointDir = /home/programs/flume/checkpoint/behavior1     #设置检查点目录(要自己先手动创建,不然会报错)
a1.channels.c1.dataDirs = /home/programs/flume/data/behavior1/                      #设置channel数据的缓存地址,需要手动创建
a1.channels.c1.maxFileSize = 2146435071                                                                   # 单个日志文件的最大大小(以字节为单位)
a1.channels.c1.capacity = 1000000 #设置channel中存储的最大事件数
a1.channels.c1.keep-alive = 60 #添加或删除事件的超时时间

#sink1

a1.sinks.k1.type = hdfs                                                                    #sink的类型
a1.sinks.k1.hdfs.path = /kafka_flume/log/%Y-%m-%d        #指定HDFS上的位置,可以按照时间进行分区
a1.sinks.k1.hdfs.filePrefix = log-                                       #文件前缀
a1.sinks.k1.hdfs.round = true                                                       #按照时间进行滚动
a1.sinks.k1.hdfs.roundValue = 10
a1.sinks.k1.hdfs.roundUnit = minute

#组合

a1.sources.r1.channels = c1
a1.sinks.k1.channel= c1


#注:此处设置一般针对小文件的处理,按照事件数(events)或者文件的大小进行合并成一个文件
a1.sinks.k1.hdfs.rollInterval = 3600
a1.sinks.k1.hdfs.rollSize = 133217728
a1.sinks.k1.hdfs.rollCount = 0

posted on 2021-02-25 22:29  RICH-ATONE  阅读(2684)  评论(0编辑  收藏  举报

导航