Kakfa揭秘 Day7 Producer源码解密

Kakfa揭秘 Day7

今天我们来研究下Producer。Producer的主要作用就是向Kafka的brokers发送数据。从思考角度，为了简化思考过程，可以简化为一个单机版本的消息队列，只是这个消息队列在远程。

让我们从官方的Example开始。

Snip20160703_25

主要进行了两步操作，第一步是进行producer的初始化，第二步是发送数据。

分布式系统一般来说只是在单机的基础上加上分布式的通讯和调度而已。

在初始化时有一些重要的参数：

partitioner.class 设置分区方式。
producer.type 数据发送方式，默认是同步方式。
message.send.max.retries 消息发送时重试次数，这也是分布式系统比较重要的设计点。
topic.metadata.refresh.interval.ms 这个参数非常的关键。当我们的broker的发生失败时，会发出一个refresh操作来刷新brokers上topic的元数据，这个参数控制刷新频率。默认每隔10分钟可能刷新下集群的元数据，如果设置负值时只会在失败的时候刷新，如果设置为0，则每次发送一个消息，都会刷新一次元数据，会影响吞吐量。这个刷新东西是在发送之后才会生成，如果从来没发送过数据，则不会刷新。

为什么要刷新元数据？因为partition可能丢失，leader可能不可用，broker可能会挂掉，也可能在线扩容，这些情况都会造成broker的变动，这是kafka集群和broker弱耦合的实现，客户端在运行过程中可以动态的调整元数据。

在发送时，首先要找到Kafka主机的ip和端口，由于kafka有一套自己的消息队列组织方式，所以肯定要根据它的方式，看怎么把数据交到队列里去。
如下代码可以看到，当没有指定partition时，会从集群的元数据中获取partition的信息。
Snip20160703_26

从Example代码中，我们可以看到send有同步和异步两种方式，默认是同步的方式。如果异步的话，中间会有一个缓存(消息队列)，producer发入缓存，broker再从里面抓数据。无论是同步还是异步的方式，都会有一个producer pool的方式，会通过线程的方式连上主机。

下面就是具体的数据传输。
Snip20160703_28

其底层用了socket编程。为了持续不断的传输数据时，socket是一种稳定、可靠、数据量可大可小的通讯方式，socket弄出来比较大，但是值得的。

Kafka的producer总结来看，有三个设计要点：

作为Producer发给kafka消息，虽然是分布式的，可以用个queue的角度来理解，由于kafka有一套自己的元数据和数据管理机制，所以需要在发送前获得元数据。
定期会刷新元数据，为了动态扩容和异常处理。
采用socket的方式，进行数据的发送。

DT大数据每天晚上20：00YY频道现场授课频道68917580

posted @ 2016-07-03 20:58 哎哟慰阅读(395) 评论(0) 编辑收藏举报

刷新页面返回顶部