随笔分类 -  kafka

摘要:1. Kafka事务的使用 Kafka中的事务特性主要用于以下两种场景: 生产者发送多条消息可以封装在一个事务中,形成一个原子操作。多条消息要么都发送成功,要么都发送失败。 read-process-write模式:将消息消费和生产封装在一个事务中,形成一个原子操作。在一个流式处理的应用中,常常一个 阅读全文
posted @ 2020-04-26 10:44 大数据从业者FelixZh 阅读(2509) 评论(0) 推荐(0) 编辑
摘要:In this article, we are going to look at how to load test Apache Kafka, a distributed streaming platform, by using Apache JMeter™. First of all, let u 阅读全文
posted @ 2020-04-21 10:15 大数据从业者FelixZh 阅读(982) 评论(0) 推荐(0) 编辑
摘要:In a previous blog post, we introduced exactly once semantics for Apache Kafka®. That post covered the various message delivery semantics, introduced 阅读全文
posted @ 2020-04-20 18:35 大数据从业者FelixZh 阅读(242) 评论(0) 推荐(0) 编辑
摘要:在代码中加入如下内容(Scala支持与Java的隐式转换), import scala.collection.JavaConversions._ 阅读全文
posted @ 2020-03-31 08:45 大数据从业者FelixZh 阅读(393) 评论(0) 推荐(0) 编辑
摘要:从github上的源工程,可以找到答案 https://github.com/smartloli/kafka-eagle/blob/master/kafka-eagle-web/src/main/resources/conf/system-config.properties 当然,你可以自定义改成任 阅读全文
posted @ 2020-03-17 12:04 大数据从业者FelixZh 阅读(1209) 评论(0) 推荐(1) 编辑
摘要:In our previous blog on A Case for Mirromaker 2, we had discussed how enterprises rely on Apache Kafka as an essential component of their data pipelin 阅读全文
posted @ 2020-03-03 10:15 大数据从业者FelixZh 阅读(838) 评论(0) 推荐(0) 编辑
摘要:Today, when a batch is expired in the accumulator, a TimeoutException is raised to the user. It might be better the producer to retry the expired batc 阅读全文
posted @ 2020-03-02 16:10 大数据从业者FelixZh 阅读(876) 评论(0) 推荐(0) 编辑
摘要:We are getting random NetworkExceptions and TimeoutExceptions in our production environment: Brokers: 3 Zookeepers: 3 Servers: 3 Kafka: 0.10.0.1 Zooke 阅读全文
posted @ 2020-03-02 12:16 大数据从业者FelixZh 阅读(1050) 评论(0) 推荐(0) 编辑
摘要:Co-authors: Jon Lee and Wesley Wu Apache Kafka is a core part of our infrastructure at LinkedIn. It was originally developed in-house as a stream proc 阅读全文
posted @ 2020-02-27 11:24 大数据从业者FelixZh 阅读(335) 评论(0) 推荐(0) 编辑
摘要:Authorizing Kafka access over non-authenticated channel via Ranger This section answers some questions one is likely to encounter when trying to autho 阅读全文
posted @ 2020-02-04 14:49 大数据从业者FelixZh 阅读(404) 评论(0) 推荐(0) 编辑
摘要:I wrote a blog post about how LinkedIn uses Apache Kafka as a central publish-subscribe log for integrating data between applications, stream processi 阅读全文
posted @ 2020-01-09 11:31 大数据从业者FelixZh 阅读(498) 评论(0) 推荐(1) 编辑
摘要:https://cwiki.apache.org/confluence/display/KAFKA/Clients 转至元数据结尾 由 Jun Rao创建, 最终由 Dongjin Lee修改于 十月 21, 2019 转至元数据起始 How The Kafka Project Handles Cl 阅读全文
posted @ 2020-01-09 10:50 大数据从业者FelixZh 阅读(1263) 评论(0) 推荐(0) 编辑
摘要:https://bbs.huaweicloud.com/blogs/112956 版权归PUMA项目组所有,转载请声明,多谢。 kakfa大规模集群能力在前面已给大家分享过,kafka作为消息总线,在支撑云千万tps上千节点的集群能力非常出色,本文继续对业界关于单机多topic的性能瓶颈点问题(比如 阅读全文
posted @ 2019-12-07 10:43 大数据从业者FelixZh 阅读(9651) 评论(1) 推荐(5) 编辑
摘要:我们都知道kafka利用zookeeper做分布式管理,具体创建使用了哪些znode节点呢? 答案均在源码的ZkData.scala文件中,具体路径如下: https://github.com/apache/kafka/edit/2.1/core/src/main/scala/kafka/zk/Zk 阅读全文
posted @ 2019-12-02 14:30 大数据从业者FelixZh 阅读(702) 评论(0) 推荐(0) 编辑
摘要:引言按照Kafka默认的消费逻辑设定,一个分区只能被同一个消费组(ConsumerGroup)内的一个消费者消费。假设目前某消费组内只有一个消费者C0,订阅了一个topic,这个topic包含7个分区,也就是说这个消费者C0订阅了7个分区,参考下图(1)。 此时消费组内又加入了一个新的消费者C1,按 阅读全文
posted @ 2019-11-26 15:13 大数据从业者FelixZh 阅读(3869) 评论(0) 推荐(0) 编辑
摘要:每一个分区都是一个顺序的、不可变的消息队列,并且可以持续的添加。分区中的消息都被分配了一个序列号,称之为偏移量(offset),在每个分区中此偏移量都是唯一的。一个分区在文件系统里存储为一个文件夹。文件夹里包含日志文件和索引文件。其文件名是其包含的offset的最小的条目的offset。 每个文件是 阅读全文
posted @ 2019-11-25 11:06 大数据从业者FelixZh 阅读(6169) 评论(0) 推荐(0) 编辑
摘要:先进入源码工程:执行gradle idea或者gradle eclipse 之后再导入idea/eclipse 阅读全文
posted @ 2019-11-18 10:11 大数据从业者FelixZh 阅读(568) 评论(0) 推荐(0) 编辑
摘要:本文重点介绍kafka的两类常见数据迁移方式: 1、broker内部不同数据盘之间的分区数据迁移; 2、不同broker之间的分区数据迁移。 一、broker 内部不同数据盘之间进行分区数据迁移 1.1 背景介绍 kafka broker内部的topic分区数据存储分布不均匀,导致部分磁盘100%耗 阅读全文
posted @ 2019-11-15 14:10 大数据从业者FelixZh 阅读(1146) 评论(0) 推荐(0) 编辑
摘要:最近发现一个Kafka producer异步发送在某些情况会阻塞主线程,后来在排查解决问题过程中发现这可以算是Kafka的一个说明不恰当的地方。 问题说明 在很多场景下我们会使用异步方式来发送Kafka的消息,会使用KafkaProducer中的以下方法: 根据文档的说明它是一个异步的发送方法,按道 阅读全文
posted @ 2019-11-13 14:58 大数据从业者FelixZh 阅读(2764) 评论(0) 推荐(0) 编辑
摘要:一、问题描述:Kafka生产集群中有一台机器cdh-003由于物理故障原因挂掉了,并且系统起不来了,使得线上的spark Streaming实时任务不能正常消费,重启实时任务都不行。查看kafka topic状态,发现broker Leader出现-1的情况,如下图 二、问题分析Kafka Brok 阅读全文
posted @ 2019-09-30 14:21 大数据从业者FelixZh 阅读(1744) 评论(0) 推荐(0) 编辑