摘要: 本文将介绍如何在 Kafka 中使用 Avro 来序列化消息,并提供完整的 Producter 代码共大家使用。 Avro Avro 是一个数据序列化的系统,它可以将数据结构或对象转化成便于存储或传输的格式。Avro设计之初就用来支持数据密集型应用,适合于远程或本地大规模数据的存储和交换。因为本文并 阅读全文
posted @ 2018-05-09 11:16 gyhuminyan 阅读(4337) 评论(0) 推荐(0) 编辑
摘要: 这是许多kafka使用者经常会问到的一个问题。本文的目的是介绍与本问题相关的一些重要决策因素,并提供一些简单的计算公式。 越多的分区可以提供更高的吞吐量 首先我们需要明白以下事实:在kafka中,单个patition是kafka并行操作的最小单元。在producer和broker端,向每一个分区写入 阅读全文
posted @ 2018-05-09 10:48 gyhuminyan 阅读(1089) 评论(0) 推荐(0) 编辑
摘要: Offset管理概述 Spark Streaming集成了Kafka允许用户从Kafka中读取一个或者多个topic的数据。一个Kafka topic包含多个存储消息的分区(partition)。每个分区中的消息是顺序存储,并且用offset(可以认为是位置)来标记消息。开发者可以在他的Spark 阅读全文
posted @ 2018-05-09 10:37 gyhuminyan 阅读(1115) 评论(0) 推荐(0) 编辑
摘要: 引言 Apache Kafka 发源于 LinkedIn,于 2011 年成为 Apache 的孵化项目,随后于 2012 年成为 Apache 的顶级项目之一。按照官方定义,Kafka 是一个分布式流平台,具备流数据的发布及订阅(与消息队列或企业级消息系统类似)能力、容错方式的流数据存储能力以及流 阅读全文
posted @ 2018-05-09 10:23 gyhuminyan 阅读(1250) 评论(0) 推荐(0) 编辑
摘要: 在正常情况下,Kafka中的每个Topic都会有很多个分区,每个分区又会存在多个副本。在这些副本中,存在一个leader分区,而剩下的分区叫做 follower,所有对分区的读写操作都是对leader分区进行的。所以当我们向Kafka写消息或者从Kafka读取消息的时候,必须先找到对应分区的Lead 阅读全文
posted @ 2018-05-09 09:57 gyhuminyan 阅读(1346) 评论(0) 推荐(0) 编辑
摘要: 问题 用过 Kafka 的同学都知道,每个 Topic 一般会有很多个 partitions。为了使得我们能够及时消费消息,我们也可能会启动多个 Consumer 去消费,而每个 Consumer 又会启动一个或多个streams去分别消费 Topic 里面的数据。我们又知道,Kafka 存在 Co 阅读全文
posted @ 2018-05-09 09:39 gyhuminyan 阅读(480) 评论(0) 推荐(0) 编辑