Flume 整合 Kafka_flume 到kafka 配置【转】

1.背景
先说一下，为什么要使用 Flume + Kafka？

以实时流处理项目为例，由于采集的数据量可能存在峰值和峰谷，假设是一个电商项目，那么峰值通常出现在秒杀时，这时如果直接将 Flume 聚合后的数据输入到 Storm 等分布式计算框架中，可能就会超过集群的处理能力，这时采用 Kafka 就可以起到削峰的作用。Kafka 天生为大数据场景而设计，具有高吞吐的特性，能很好地抗住峰值数据的冲击。

2.整合流程
Flume 发送数据到 Kafka 上主要是通过 `KafkaSink` 来实现的，主要步骤如下：

1. 启动Zookeeper和Kafka

这里启动一个单节点的 Kafka 作为测试：

# 启动Zookeeper
zkServer.sh start

# 启动kafka
bin/kafka-server-start.sh config/server.properties
2. 创建主题

创建一个主题 `flume-kafka`，之后 Flume 收集到的数据都会发到这个主题上：

# 创建主题
bin/kafka-topics.sh --create \
--zookeeper hadoop001:2181 \
--replication-factor 1 \
--partitions 1 --topic flume-kafka

# 查看创建的主题
bin/kafka-topics.sh --zookeeper hadoop001:2181 --list
3. 启动kafka消费者

启动一个消费者，监听我们刚才创建的 `flume-kafka` 主题：

# bin/kafka-console-consumer.sh --bootstrap-server hadoop001:9092 --topic flume-kafka
4. 配置Flume

新建配置文件 `exec-memory-kafka.properties`，文件内容如下。这里我们监听一个名为 `kafka.log` 的文件，当文件内容有变化时，将新增加的内容发送到 Kafka 的 `flume-kafka` 主题上。

a1.sources = s1
a1.channels = c1
a1.sinks = k1

a1.sources.s1.type=exec
a1.sources.s1.command=tail -F /tmp/kafka.log
a1.sources.s1.channels=c1

#设置Kafka接收器
a1.sinks.k1.type= org.apache.flume.sink.kafka.KafkaSink
#设置Kafka地址
a1.sinks.k1.brokerList=hadoop001:9092
#设置发送到Kafka上的主题
a1.sinks.k1.topic=flume-kafka
#设置序列化方式
a1.sinks.k1.serializer.class=kafka.serializer.StringEncoder
a1.sinks.k1.channel=c1

a1.channels.c1.type=memory
a1.channels.c1.capacity=10000
a1.channels.c1.transactionCapacity=100
5. 启动Flume

flume-ng agent \
--conf conf \
--conf-file /usr/app/apache-flume-1.6.0-cdh5.15.2-bin/examples/exec-memory-kafka.properties \
--name a1 -Dflume.root.logger=INFO,console
6. 测试

向监听的 `/tmp/kafka.log ` 文件中追加内容，查看 Kafka 消费者的输出：

可以看到 `flume-kafka` 主题的消费端已经收到了对应的消息：

转自

Flume 整合 Kafka_flume 到kafka 配置-CSDN博客
https://blog.csdn.net/shangjg03/article/details/133870099

posted @ 2024-04-15 13:48 paul_hch 阅读(143) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 进击消息中间件系列（一）：Kafka 入门（基本概念与架构）【转】

· kafka集群扩容【工地】

· Kafka 集成Flume

· 六, Kafka与Flume对接

· kafka与flume整合(kafka充当source,sink,channel)

阅读排行：
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布：重大改进与新特性概览！
· AI与.NET技术实操系列（二）：开始使用ML.NET
· 单线程的Redis速度为什么快？

历史上的今天：
2016-04-15 nginx配置文件【转载】
2016-04-15 linux通过history查看命令执行时间

公告

昵称： paul_hch
园龄： 10年1个月
粉丝： 166
关注： 20

+加关注

2025年3月

日

一

二

三

四

五

六

hch的随笔成功的秘诀在于恒心—迪斯雷利

成功的秘诀在于恒心——迪斯雷利

Flume 整合 Kafka_flume 到kafka 配置【转】

公告

搜索

我的标签

积分与排名

随笔分类 (1040)

随笔档案 (1219)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

hch的随笔 成功的秘诀在于恒心—迪斯雷利

成功的秘诀在于恒心——迪斯雷利

Flume 整合 Kafka_flume 到kafka 配置【转】

公告

搜索

我的标签

积分与排名

随笔分类 (1040)

随笔档案 (1219)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

hch的随笔成功的秘诀在于恒心—迪斯雷利