Flume对接Kafka Source基础配置

#组件

#a1为定义的name
a1.sources=r1
a1.channels=c1
a1.sinks=k1

#source

a1.sources.r1.type = org.apache.flume.source.kafka.KafkaSource #定义source类型为Kafka Source
a1.sources.r1.batchSize = 5000    #批量写入通道的最大消息数
a1.sources.r1.batchDurationMillis = 2000   #将批处理写入通道之前的最长时间（以毫秒为单位）
a1.sources.r1.kafka.bootstrap.servers = 192.168.x.xx:9092,192.168.x.xx:9092,192.168.x.xx:9092  #kafka集群地址
a1.sources.r1.kafka.topics = cp_udplog    #监控的kafka topic名称
a1.sources.r1.kafka.consumer.group.id = custom.g.id     #定义消费者组
a1.sources.r1.kafka.consumer.auto.offset.reset = earliest #定义消费者的消费位置

#channel

a1.channels.c1.type = file #定义channel的方式
a1.channels.c1.checkpointDir = /home/programs/flume/checkpoint/behavior1 #设置检查点目录（要自己先手动创建，不然会报错）
a1.channels.c1.dataDirs = /home/programs/flume/data/behavior1/ #设置channel数据的缓存地址，需要手动创建
a1.channels.c1.maxFileSize = 2146435071 # 单个日志文件的最大大小（以字节为单位）
a1.channels.c1.capacity = 1000000 #设置channel中存储的最大事件数
a1.channels.c1.keep-alive = 60 #添加或删除事件的超时时间

#sink1

a1.sinks.k1.type = hdfs     #sink的类型
a1.sinks.k1.hdfs.path = /kafka_flume/log/%Y-%m-%d   #指定HDFS上的位置，可以按照时间进行分区
a1.sinks.k1.hdfs.filePrefix = log- #文件前缀
a1.sinks.k1.hdfs.round = true    #按照时间进行滚动
a1.sinks.k1.hdfs.roundValue = 10
a1.sinks.k1.hdfs.roundUnit = minute

#组合

a1.sources.r1.channels = c1
a1.sinks.k1.channel= c1

#注：此处设置一般针对小文件的处理，按照事件数（events）或者文件的大小进行合并成一个文件
a1.sinks.k1.hdfs.rollInterval = 3600
a1.sinks.k1.hdfs.rollSize = 133217728
a1.sinks.k1.hdfs.rollCount = 0

posted on 2021-02-25 22:29 RICH-ATONE 阅读(2737) 评论(0) 编辑收藏举报

刷新页面返回顶部

RICH-ATONE