2018 年 5月 9 日随笔档案 - gyhuminyan

2018年5月9日

摘要：本文将介绍如何在 Kafka 中使用 Avro 来序列化消息，并提供完整的 Producter 代码共大家使用。 Avro Avro 是一个数据序列化的系统，它可以将数据结构或对象转化成便于存储或传输的格式。Avro设计之初就用来支持数据密集型应用，适合于远程或本地大规模数据的存储和交换。因为本文并阅读全文

posted @ 2018-05-09 11:16 gyhuminyan 阅读(4337) 评论(0) 推荐(0) 编辑

如何为Kafka集群选择合适的Topics/Partitions数量

摘要：这是许多kafka使用者经常会问到的一个问题。本文的目的是介绍与本问题相关的一些重要决策因素，并提供一些简单的计算公式。越多的分区可以提供更高的吞吐量首先我们需要明白以下事实：在kafka中，单个patition是kafka并行操作的最小单元。在producer和broker端，向每一个分区写入阅读全文

posted @ 2018-05-09 10:48 gyhuminyan 阅读(1089) 评论(0) 推荐(0) 编辑

Spark Streaming 中管理 Kafka Offsets 的几种方式

摘要： Offset管理概述 Spark Streaming集成了Kafka允许用户从Kafka中读取一个或者多个topic的数据。一个Kafka topic包含多个存储消息的分区（partition）。每个分区中的消息是顺序存储，并且用offset（可以认为是位置）来标记消息。开发者可以在他的Spark 阅读全文

posted @ 2018-05-09 10:37 gyhuminyan 阅读(1115) 评论(0) 推荐(0) 编辑

Kafka 在华泰证券的探索与实践

摘要：引言 Apache Kafka 发源于 LinkedIn，于 2011 年成为 Apache 的孵化项目，随后于 2012 年成为 Apache 的顶级项目之一。按照官方定义，Kafka 是一个分布式流平台，具备流数据的发布及订阅（与消息队列或企业级消息系统类似）能力、容错方式的流数据存储能力以及流阅读全文

posted @ 2018-05-09 10:23 gyhuminyan 阅读(1250) 评论(0) 推荐(0) 编辑

Kafka 客户端是如何找到 leader 分区的

摘要：在正常情况下，Kafka中的每个Topic都会有很多个分区，每个分区又会存在多个副本。在这些副本中，存在一个leader分区，而剩下的分区叫做 follower，所有对分区的读写操作都是对leader分区进行的。所以当我们向Kafka写消息或者从Kafka读取消息的时候，必须先找到对应分区的Lead 阅读全文

posted @ 2018-05-09 09:57 gyhuminyan 阅读(1346) 评论(0) 推荐(0) 编辑

Kafka分区分配策略(Partition Assignment Strategy)

摘要：问题用过 Kafka 的同学都知道，每个 Topic 一般会有很多个 partitions。为了使得我们能够及时消费消息，我们也可能会启动多个 Consumer 去消费，而每个 Consumer 又会启动一个或多个streams去分别消费 Topic 里面的数据。我们又知道，Kafka 存在 Co 阅读全文

posted @ 2018-05-09 09:39 gyhuminyan 阅读(480) 评论(0) 推荐(0) 编辑

gyhuminyan

公告