Flume对接Kafka Source基础配置
#组件
#a1为定义的name
a1.sources=r1
a1.channels=c1
a1.sinks=k1
#source
a1.sources.r1.type = org.apache.flume.source.kafka.KafkaSource #定义source类型为Kafka Source
a1.sources.r1.batchSize = 5000 #批量写入通道的最大消息数
a1.sources.r1.batchDurationMillis = 2000 #将批处理写入通道之前的最长时间(以毫秒为单位)
a1.sources.r1.kafka.bootstrap.servers = 192.168.x.xx:9092,192.168.x.xx:9092,192.168.x.xx:9092 #kafka集群地址
a1.sources.r1.kafka.topics = cp_udplog #监控的kafka topic名称
a1.sources.r1.kafka.consumer.group.id = custom.g.id #定义消费者组
a1.sources.r1.kafka.consumer.auto.offset.reset = earliest #定义消费者的消费位置
#channel
a1.channels.c1.type = file #定义channel的方式
a1.channels.c1.checkpointDir = /home/programs/flume/checkpoint/behavior1 #设置检查点目录(要自己先手动创建,不然会报错)
a1.channels.c1.dataDirs = /home/programs/flume/data/behavior1/ #设置channel数据的缓存地址,需要手动创建
a1.channels.c1.maxFileSize = 2146435071 # 单个日志文件的最大大小(以字节为单位)
a1.channels.c1.capacity = 1000000 #设置channel中存储的最大事件数
a1.channels.c1.keep-alive = 60 #添加或删除事件的超时时间
#sink1
a1.sinks.k1.type = hdfs #sink的类型
a1.sinks.k1.hdfs.path = /kafka_flume/log/%Y-%m-%d #指定HDFS上的位置,可以按照时间进行分区
a1.sinks.k1.hdfs.filePrefix = log- #文件前缀
a1.sinks.k1.hdfs.round = true #按照时间进行滚动
a1.sinks.k1.hdfs.roundValue = 10
a1.sinks.k1.hdfs.roundUnit = minute
#组合
a1.sources.r1.channels = c1
a1.sinks.k1.channel= c1
#注:此处设置一般针对小文件的处理,按照事件数(events)或者文件的大小进行合并成一个文件
a1.sinks.k1.hdfs.rollInterval = 3600
a1.sinks.k1.hdfs.rollSize = 133217728
a1.sinks.k1.hdfs.rollCount = 0
posted on 2021-02-25 22:29 RICH-ATONE 阅读(2737) 评论(0) 编辑 收藏 举报