分布式消息队列 Kafka

原创 2016-02-25 杜亦舒性能与架构

Kafka是一个高吞吐量的、分布式的消息系统，由Linkedin开发，开发语言为scala

具有高吞吐、可扩展、分布式等特点

适用场景

活动数据统计

活动数据包括页面访问量（Page View）、被查看内容方面的信息、搜索情况等内容

先以日志的形式存储，然后周期性地对这些文件进行统计分析

运营数据统计

收集服务器的性能数据（CPU、内存、IO使用率 ……)，之后进行统计

Linkedin就是基于这类需求开发出了Kafka，所以kafka最适合的场景为：

一个日志集群，各种服务器将它们自身的日志发送到集群中进行统一汇总和存储，然后其它机器从集群中拉取消息进行分析处理，数据挖掘

整体架构

kafka体系包括以下部分：

（1）生产者 Producer

（2）broker集群

（3）话题 Topic（可以理解为queue）

（4）消费者 Consumer

（5）Zookeeper集群

可以在Kafka中创建多个Topic，Producer向Topic中发送消息，Consumer从Topic中获取消息

为了高效的读写消息，topic都被切分为多个分区partition，放入不同的broker中

topic的partition类似于数据库的分表，可以根据消息的key进行分区

例如key为userid，可以根据userid进行分组，把不同userid段的消息放入不同的partition，提高读写性能

为了保证高可用性，每个partition都有多个备份，分别保存在不同的broker中

其中有一个partition为leader，负责读写，其余的为slave，当leader失效时，会从slave中再选举出一个leader

每个partition也不是一个独立的文件，被分为了多个片段segment

Kafka通过Zookeeper管理集群配置，选举leader

应用示例

需求

监控用户交易行为，当交易金额过大时，标识出异常

实现

补充：

Kafka是一个分布式的消息队列系统，消息存储在集群服务器的硬盘

Kafka中可以创建多个消息队列，称为topic，消息的生产者向topic中发布消息，消息的消费者从topic中获取消息

消息是海量的，为了消息的读写性能，topic被分为多个部分，称为partition，kafka把每个topic的每个partition均匀的分布在集群中的不同服务器上

所以从整体来看，Kafka的逻辑关系就是：生产者向topic中的某个partition发送消息，消费者从partition获取消息

实际的存储结构中，partition并不是存放消息的物理文件，而是一个目录，命名规则是topic名称加上partition序号，其中包含了这个partition的N个分段存储文件segment

分段存储也是因为partition内容非常多，分成小文件更便于消息的写入和检索

segment也不是一个文件，是由两个物理文件构成：

.index索引文件、.log消息内容文件

这两个文件是成对出现，名称一样，只是后缀不同

实际的存储结构就是这样的

消息是按照顺序产生的，所以每个消息都有一个序号，称为offset，表示partiion的第多少个message，从0开始

每个segment存储了一段offset区间内的消息

segment文件以offset区间的起始值命名，长度固定20位，不足的位用0填充

例如存储了第0-20条的消息，segment文件就是：

00000000000000000000.index

00000000000000000000.log

index文件结构很简单，每一行都是一个key,value对

key 是消息的序号offset

value 是消息的物理位置偏移量

如

1,0

3,299

6,497

...

说明的就是第几个消息的物理位置是哪儿

log文件中保存了消息的实际内容，和相关信息

如消息的offset、消息的大小、消息校验码、消息数据等

消息检索过程示例

例如读取offset=368的消息

（1）找到第368条消息在哪个segment

从partition目录中取得所有segment文件的名称，就相当于得到了各个序号区间

例如有3个segment

00000000000000000000.index

00000000000000000000.log

00000000000000000300.index

00000000000000000300.log

00000000000000000600.index

00000000000000000600.log

根据二分查找，可以快速定位

第368条消息是在00000000000000000300.log文件中

（2）从index文件中找到其物理偏移量

读取 00000000000000000300.index

以368为key，得到value，如299，就是消息的物理位置偏移量

（3）到log文件中读取消息内容

读取 00000000000000000300.log

从偏移量299开始读取消息内容

完成了消息的检索过程

posted @ 2018-08-15 19:47 micwin 阅读(204) 评论(0) 编辑收藏举报

刷新页面返回顶部

micwin

胜利属于有准备的人!

分布式消息队列 Kafka

分布式消息队列 Kafka

补充：

公告