kafka重复数据问题排查记录

Posted on 2018-06-17 10:17 翔云123456 阅读(427) 评论(0) 编辑收藏举报

问题

向kafka写数据，然后读kafka数据，生产的数据量和消费的数据量对不上。

开始怀疑人生，以前奠定的基础受到挑战。。。

原来的测试为什么没有覆盖生产量和消费量的对比？

消费者写的有问题？反复检，无果。。。

再反过来梳理生产者的代码，检查了几遍，也并无发现疏漏。

开始怀疑Kafka
以前看过文章，说kafka数据有可能重复和丢失数据，难道kafka的这么不精确，丢了这么多数据？

最后排查到生产者，kafka生产者使用confluent-kafka-go。
向kafka生产数据的伪代码如下：

type Message struct {
Content  []byte

}

message = &Message{}

for {
	content = getFromQ()
	
	message.Content =content
	
	Send(message)

}

这段代码是有问题的。
Send()操作不是直接发送出去，而是放入一个队列，这样，如果队列数据发送前，下一次循环再次调用

message.Content =content

会将原来的content覆盖掉，就会出现写入kafka的数据存在重复。并且如果前一次数据长度大于下一次数据长度，后者覆盖前者，消费量就会小于生产量。

需要将代码修改为：

type Message struct {
Content  []byte

}

for {
	content = getFromQ()
	
	message = &Message{}
	message.Content =content
	
	Send(message)

}

每次发送消息时，重新定义一个变量保存数据，这样就不会出现覆盖问题。

刷新页面返回顶部