随笔- 85 文章- 0 评论- 4 阅读- 15万

kafka文件存储结构和如何保证数据不丢失

一： kafka文件组成

基本组成：

1- broker 节点，多个broker构成一个集群

2- topic 对消息进行归类

3- producer 生产者

4- comsumer 消费者

5- consumerGroup 消费组

topic的组成：

1- partition 物理上数据存储的概念，一个topic包含多个partition，每个partition内部是有序的；每个partition是一个目录；

2- segment 一个partition包含多个segment，包含两种文件.index和.log。

这两个文件的命令规则为：partition全局的第一个segment从0开始，后续每个segment文件名为上一个segment文件最后一条消息的offset值，数值大小为64位，20位数字字符长度，没有数字用0填充，如下：

00000000000000000000.index
00000000000000000000.log
00000000000000170410.index
00000000000000170410.log
00000000000000239430.index
00000000000000239430.log

index索引文件存储大量的元数据，log数据文件存储大量的消息。

partition内部读取数据的流程为（例如读取offset=170418的消息）：

1- 首先查找segment文件。确认数据存储在00000000000000170410.index和00000000000000170410.log这两个文件中。

2- 到index文件中查找，log数据存贮的位置信息。

3- 从log日志中读取所需日志信息。

二：数据可靠性和持久性保证

1- producer端

request.required.acks参数进行配置，可靠性级别为：

1（默认） producer写到kafka中，收到leader的反馈信息后，下确认其写入成功。leader宕机，会丢失数据。

0 producer端不会收到任何的反馈信息，数据可靠性很低。

-1 producer端需要确认leader和follower都反馈成功，才认为写入成功。和min.insync.replicas参数（最小同步副本数，必须大于等于2）一起使用。利用副本冗余信息来确保数据不会丢失。但是可以会重复传输。

2- comsumer端

producer.type=sync一定要设置成同步的方式。

consumer先读取消息并处理，在commit。这种方式可以保证至少一次；

consumer 先读取消息，再commit，在处理，这种方式会丢失数据；

3- 自定义实现，缓存消息去重

Consumer保持无状态和幂等性就可以了

posted @ 2019-05-14 18:38 上海小墨子阅读(400) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 25岁的心里话
· 闲置电脑爆改个人服务器（超详细） #公网映射 #Vmware虚拟网络编辑器
· 基于 Docker 搭建 FRP 内网穿透开源项目（很简单哒）
· 零经验选手，Compose 一天开发一款小游戏！
· 一起来玩mcp_server_sqlite，让AI帮你做增删改查！！

公告

昵称：上海小墨子
园龄： 6年5个月
粉丝： 7
关注： 3

+加关注

2025年3月

日

一

二

三

四

五

六

上海小墨子

kafka文件存储结构和如何保证数据不丢失

公告

搜索

常用链接

我的标签

积分与排名

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论