Kafka 简介、非0拷贝和0拷贝、实时计算和离线计算的流程

Kafka 简介

Kafka 简介

实时计算的数据源

存储实时数据的工具

由Scala语言编写

去中心化架构

kafka是一个高吞吐的分布式消息系统

Apache kafka is publish-subscribe messaging rethought as a distributed commit log

Kafka是一个发布与订阅的分布式消息系统

实时计算和离线计算的流程

消息队列的应用场景

消息 -- 数据

系统之间解耦合

queue模型
publish-subscribe模型

峰值压力缓冲

异步通信

Kafka架构

producer：消息生存者

consumer：消息消费者

broker：kafka集群的server，负责处理消息读、写请求，存储消息

Kafka 的节点

topic：消息队列/分类

Queue里面有生产者消费者模型

broker就是代理，在kafka cluster这一层这里，其实里面是有很多个broker

topic就相当于queue

图里没有画其实还有zookeeper，这个架构里面有些元信息是存在zookeeper上面的，整个集群的管理也和zookeeper有很大的关系

kafka的消息存储和生产消费模型

kafka 的数据也是存储在磁盘中的

一个topic分成多个partition

分出分区的目的是：为了实现分布式

在 topic 的角度上来说，数据并不是强有序的

每个partition内部消息强有序，其中的每个消息都有一个序号叫offset

强有序 -- 先进先出

offset -- 偏移量

一个partition只对应一个broker，一个broker可以管多个partition

这里的 partition 可以理解为 block 块
Kafka 中一个 topic 由多个 partition 组成，每一个 partition 对应到磁盘里是一个文件

消息不经过内存缓冲，直接写入文件

默认为7天删除

根据时间策略删除，而不是消费完就删除

producer自己决定往哪个partition写消息，可以是轮询的负载均衡，或者是基于hash的partition策略

topic

kafka 里面的消息是有topic来组织的，简单的我们可以想象为一个队列，一个队列就是一个topic，然后它把每个 topic又分为很多个partition，这个是为了做并行的，在每个 partition 里面是有序的，相当于有序的队列，其中每个消息都有个序号，比如0到12，从前面读往后面写

一个partition对应一个broker，一个broker可以管多个partition，比如说，topic有6个partition，有两个broker，那每个broker就管3个partition

这个partition可以很简单想象为一个文件，当数据发过来的时候它就往这个partition上面append，追加就行，kafka和很多消息系统不一样，很多消息系统是消费完了我就把它删掉，而kafka是根据时间策略删除，而不是消费完就删除，在kafka里面没有一个消费完这么个概念，只有过期这样一个概念，这个模型带来了很多个好处，这个我们后面再讨论一下

这里producer自己决定往哪个partition里面去写，这里有一些的策略，譬如如果hash就不用多个partition之间去join数据了

消费者和消费者组

consumer自己维护消费到哪个offset

每个consumer都有对应的group

加入消费者组的概念是为了：并行消费，提高效率

group内是queue消费模型

各个consumer消费不同的partition
因此一个消息在group内只消费一次

group间是publish-subscribe消费模型

各个group各自独立消费，互不影响
因此一个消息在被每个group消费一次

kafka 的特点

消息系统的特点：生存者消费者模型，FIFO(先进先出)

FIFO(先进先出) -- 因为只在分区内强有序，所以想要实现FIFO，只有当Topic中只有一个分区的时候才可以实现

高性能：单节点支持上千个客户端，百MB/s吞吐

持久性：消息直接持久化在普通磁盘上且性能好

分布式：数据副本冗余、流量负载均衡、可扩展

很灵活：消息长时间持久化+Client维护消费状态

消息系统基本的特点是保证了，有基本的生产者消费者模型，partition内部是FIFO的，partition之间呢不是FIFO的，当然我们可以把topic设为一个partition，这样就是严格的FIFO

直接写到磁盘里面去，就是直接append到磁盘里面去，这样的好处是直接持久话，数据不会丢，第二个好处是顺序写，然后消费数据也是顺序的读，所以持久化的同时还能保证顺序，比较好，因为磁盘顺序读比较好

分布式，数据副本，也就是同一份数据可以到不同的broker上面去，也就是当一份数据，磁盘坏掉的时候，数据不会丢失，比如3个副本，就是在3个机器磁盘都坏掉的情况下数据才会丢，在大量使用情况下看这样是非常好的，负载均衡，可扩展，在线扩展，不需要停服务的

消费方式非常灵活，第一原因是消息持久化时间跨度比较长，一天或者一星期等，第二消费状态自己维护消费到哪个地方了，Queue的模型，发布订阅（广播）的模型，还有回滚的模型

kafka与其他消息队列对比

消费状态谁来维护Client vs.Server

kafka的消息存储

顺序读写磁盘

0拷贝

批量读写

有人可能会说kafka写磁盘，会不会是瓶颈，其实不会而且是非常好的，为什么是非常好的，因为kafka写磁盘是顺序的，所以不断的往前产生，不断的往后写，kafka还用了sendFile的0拷贝技术，提高速度，而且还用到了批量读写，一批批往里写，64K为单位，100K为单位，每一次网络传输量不会特别小，RTT（RTT:Round-TripTime往返时间）的开销就会微不足道，对文件的操作不会是很小的IO，也不会是比较大块的IO

非0拷贝和0拷贝

用户空间 -- 代码

内核空间 -- 系统

从WIKI的定义中，我们看到“零拷贝”是指计算机操作的过程中，CPU不需要为数据在内存之间的拷贝消耗资源。而它通常是指计算机在网络上发送文件时，不需要将文件内容拷贝到用户空间（User Space）而直接在内核空间（Kernel Space）中传输到网络的方式。

Non-Zero Copy方式：

Zero Copy方式：

从上图中可以清楚的看到，Zero Copy的模式中，避免了数据在用户空间和内存空间之间的拷贝，从而提高了系统的整体性能。Linux中的sendfile()以及Java NIO中的FileChannel.transferTo()方法都实现了零拷贝的功能，而在Netty中也通过在FileRegion中包装了NIO的FileChannel.transferTo()方法实现了零拷贝。

posted @ 2022-03-22 21:41 赤兔胭脂小吕布阅读(259) 评论(0) 编辑收藏举报

刷新页面返回顶部

赤兔胭脂小吕布

天行健，君子以自强不息！