第1章、Kafka概述

一、消息队列

1.1、消息队列的两种方式

(1)、点对点模式

  点对点模型通常是一个基于拉取或者轮询的消息传送模型,这种模型从队列中请求信息,而不是将消息推送到客户端。这个模型的特点是发送到队列的消息被一个且只有一个接收者接收处理,即使有多个消息监听者也是如此。(这种方式缺点是需要有一个线程实时监听消息队列,消息的推送速度由客户端控制)

 (2)、发布/订阅模式

  发布订阅模型则是一个基于推送的消息传送模型。发布订阅模型可以有多种不同的订阅者,临时订阅者只在主动监听主题时才接收消息,而持久订阅者则监听主题的所有消息,即使当前订阅者不可用,处于离线状态。(感知不到消费者的接收速度,可能造成消费者的资源浪费)

  1、队列主动推送:各个消费者的接受速度不一致,容易导致资源浪费。

  2、消费者主动拉取数据(kafka):消费者的消费速度由自己决定,缺点是消费者需要长轮询去监控新消息的产生。长时间没有新消息时,浪费资源

1.2、使用消息队列的好处

1、解耦

  允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。

2、冗余(保存数据)

  消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险。许多消息队列所采用的"插入-获取-删除"范式中,在把一个消息从队列中删除之前,需要你的处理系统明确的指出该消息已经被处理完毕,从而确保你的数据被安全的保存直到你使用完毕。

3、扩展性(集群)

  因为消息队列解耦了你的处理过程,所以增大消息入队和处理的频率是很容易的,只要另外增加处理过程即可。

4、灵活性 & 峰值处理能力(集群使得处理数据能力提升)

  在访问量剧增的情况下,应用仍然需要继续发挥作用,但是这样的突发流量并不常见。如果为以能处理这类峰值访问为标准来投入资源随时待命无疑是巨大的浪费。使用消息队列能够使关键组件顶住突发的访问压力,而不会因为突发的超负荷的请求而完全崩溃。

5、可恢复性(数据可备份,丢失可恢复)

  系统的一部分组件失效时,不会影响到整个系统。消息队列降低了进程间的耦合度,所以即使一个处理消息的进程挂掉,加入队列中的消息仍然可以在系统恢复后被处理。

6、顺序保证(队列数据有序)

  在大多使用场景下,数据处理的顺序都很重要。大部分消息队列本来就是排序的,并且能保证数据会按照特定的顺序来处理。(Kafka保证一个Partition内的消息的有序性)

7、缓冲

  有助于控制和优化数据流经过系统的速度,解决生产消息和消费消息的处理速度不一致的情况。更多的是解决生产速度大于消费速度

8、异步通信

  很多时候,用户不想也不需要立即处理消息。消息队列提供了异步处理机制,允许用户把一个消息放入队列,但并不立即处理它。想向队列中放入多少消息就放多少,然后在需要的时候再去处理它们。

二、Kafka架构

  Kafka 是一个分布式的基于发布/订阅模式消息队列(Message Queue),主要应用于大数据实时处理领域,由Scala写成。Kafka对消息保存时根据Topic进行归类。

  Kafka详细架构图

  •  同一个消费者组的消费者不能同时消费同一个分区。消息生产者,就是向kafka broker发消息的客户端;
  • leader/follower针对的是Partition分区的。不是针对Broker的。
  • 生产者/消费者都是只连接leader。
  • 一个分区只能被同一个消费者组里的某一个消费者消费。同一个消费者组的不同消费者不能消费同一个分区的数据,提高了消费能力。因此统一个消费者组的消费者大于分区数时,没有意义。所以,消费者组的消费者数等于分区组,达到性能最大。
  • zookeeper存储kafka信息,存储topic内容。以及存储消费者消费的位置信息,保证消费者重启是能接着消费。
  • 0.9版本之后offset存储在本地(kafka),0.9版本之前存储在zk(默认是7天)。消费者既可以连接zk,也可以连接broker list,生产者连接broker list

Producer

消息生产者,就是向kafka broker发消息的客户端;

Consumer

息消费者,向kafka broker取消息的客户端;

Topic 

可以理解为一个队列

每个topic(如果很大)可以分很多个分区来存储,每个分区又可以有多个副本

生产者和消费者只和leader交互,不和follower交互

Consumer Group (CG)

这是kafka用来实现一个topic消息的广播(发给所有的consumer)和单播(发给任意一个consumer)的手段。

一个topic可以有多个CG

topic的消息会复制(不是真的复制,是概念上的)到所有的CG,但每个partion只会把消息发给该CG中的一个consumer

如果需要实现广播,只要每个consumer有一个独立的CG就可以了。要实现单播只要所有的consumer在同一个CG。用CG还可以将consumer进行自由的分组而不需要多次发送消息到不同的topic;

Broker

一台kafka服务器就是一个broker。一个集群由多个broker组成。一个broker可以容纳多个topic;

Partition(分区)

为了实现扩展性,一个非常大的topic可以分布到多个broker(即服务器)上

一个topic可以分为多个partition每个partition是一个有序的队

partition中的每条消息都会被分配一个有序的id(offset)。

kafka只保证按一个partition中的顺序将消息发给consumer,不保证一个topic的整体(多个partition间)的顺序;

提高负载能力,和并发度。

Offset

offset是一个占8byte的有序id号,它可以唯一确定每条消息在parition内的位置!

replication

副本(follower/leader都是副本)容灾备份。

posted @ 2021-02-09 16:31  jingdy  阅读(56)  评论(0编辑  收藏  举报