kafka文件存储结构和如何保证数据不丢失

一: kafka文件组成

基本组成:

1- broker 节点,多个broker构成一个集群

2- topic 对消息进行归类

3- producer 生产者

4- comsumer 消费者

5- consumerGroup 消费组

topic的组成:

1- partition  物理上数据存储的概念,一个topic包含多个partition,每个partition内部是有序的;每个partition是一个目录;

2- segment  一个partition包含多个segment,包含两种文件.index和.log。

这两个文件的命令规则为:partition全局的第一个segment从0开始,后续每个segment文件名为上一个segment文件最后一条消息的offset值,数值大小为64位,20位数字字符长度,没有数字用0填充,如下:

00000000000000000000.index
00000000000000000000.log
00000000000000170410.index
00000000000000170410.log
00000000000000239430.index
00000000000000239430.log

index索引文件存储大量的元数据,log数据文件存储大量的消息。

partition内部读取数据的流程为(例如读取offset=170418的消息):

1- 首先查找segment文件。确认数据存储在00000000000000170410.index和00000000000000170410.log这两个文件中。

2- 到index文件中查找,log数据存贮的位置信息。

3- 从log日志中读取所需日志信息。

 

二:数据可靠性和持久性保证

1- producer端

request.required.acks参数进行配置,可靠性级别为:

1(默认) producer写到kafka中,收到leader的反馈信息后,下确认其写入成功。leader宕机,会丢失数据。

0 producer端不会收到任何的反馈信息,数据可靠性很低。

-1 producer端需要确认leader和follower都反馈成功,才认为写入成功。和min.insync.replicas参数(最小同步副本数,必须大于等于2)一起使用。利用副本冗余信息来确保数据不会丢失。但是可以会重复传输。

2- comsumer端

producer.type=sync一定要设置成同步的方式。

consumer先读取消息并处理,在commit。这种方式可以保证至少一次;

consumer 先读取消息,再commit,在处理,这种方式会丢失数据;

3- 自定义实现,缓存消息去重

 Consumer保持无状态和幂等性就可以了

posted @ 2019-05-14 18:38  上海小墨子  阅读(397)  评论(0编辑  收藏  举报