随笔分类 - 大数据-Kafka
摘要:背景 由于Kafka的服务启动和停止,需要一台一台地去启动和停止。当部署的Kafka节点多时非常麻烦,所以编写下面的脚本,用于提升启动和停止的效率。 执行如下脚本需要确保:脚本存放的服务器与所有的Kafka节点直接可以免密登录(服务器之间建立互信)。 1、编辑脚本 #!/bin/bash zooke
阅读全文
摘要:第一章 Kafka常用命令 1. Topic(主题) 1.1. 创建Topic bin/kafka-topics.sh --create --bootstrap-server hadoop01:9092 --replication-factor 2 --partitions 1 --topic te
阅读全文
摘要:1. 为什么要重设消费者组位移? 我们知道,Kafka 和传统的消息引擎在设计上是有很大区别的,其中一个比较显著的区别就是,Kafka 的消费者读取消息是可以重演的(replayable)。 像 RabbitMQ 或 ActiveMQ 这样的传统消息中间件,它们处理和响应消息的方式是破坏性的(des
阅读全文
摘要:问题描述 启动Trino客户端执行show catalogs时报错:Error starting query at http://localhost:8080/v1/statement returned an invalid response。 此时在浏览器中访问Trino WebUI,http:/
阅读全文
摘要:1、kafka 1.1、kafka介绍 kafka是最初由linkedin公司开发的,使用scala语言编写,kafka是一个分布式,分区的,多副本的,多订阅者的消息队列系统。 1.2、kafka相比其他消息队列的优势 常见的消息队列:RabbitMQ,Redis ,zeroMQ ,Active
阅读全文
摘要:问题描述:在linux云服务器上搭建了一套kafka3.0集群,然后按照以前的创建topic指令: ./kafka-topics.sh --zookeeper hadoop01:2181,hadoop02:2181,hadoop03:2181 --replication-factor 1 --par
阅读全文
摘要:一、kafka是什么? Kafka是一个快速、可扩展的、高吞吐、可容错的分布式发布订阅消息系统。Kafka具有高吞吐量、内置分区、支持数据副本和容错的特性,它可以处理消费者规模的网站中的所有动作流数据,具有高性能、持久化、多副本备份、横向扩展能力,适合在大规模消息处理场景中使用。 (1) 分布式系统
阅读全文
摘要:一、Kafka的介绍 (一)、概述 1、Kafka是由LinkedIn开发的一个分布式的消息系统,底层使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持与Kafka集成。 2、Kafka是一个分布式
阅读全文
摘要:1.broker的数量最好大于等于partition数量 一个partition最好对应一个硬盘,这样能最大限度发挥顺序写的优势。 一个broker如果对应多个partition,需要随机分发,顺序IO会退化成随机IO。 实验条件:3个 Broker,1个 Topic,无Replication,异步
阅读全文
摘要:(一)参数调优 参数调优相关代码 在实际的kafka开发中,我们会发现,无论是生产者还是消费者,都需要构建一个Properties对象,里面设置了很多参数。在这段代码中有很多常用的参数配置,在线上使用时,我们要根据实际的数据量和数据大小来决定这些配置的具体值。 Properties props =
阅读全文
摘要:生产环境下,为了尽可能提升Kafka的整体吞吐量,可以对Kafka的相关配置参数进行调整,以达到提升整体性能的目的。 本文主要从Kafka的不同组件出发,讲解各组件涉及的配置参数和参数含义。 一、生产者(producer.properties或者代码中) 1、acks:Producer需要Leade
阅读全文
摘要:一、问题描述 在启动kafka时报错: ERROR Fatal error during KafkaServer startup. Prepare to shutdown (kafka.server.KafkaServer) kafka.common.InconsistentBrokerIdExce
阅读全文
摘要:Kafka数据积压的原因有很多,比如消费端处理能力不足、生产端消息发送速度过快等。解决方法也有很多,以下是一些常见的解决方法 : 增加分区数:如果数据量很大,合理的增加Kafka分区数是关键。但是分区的数量并不是无限增大的,他是有上限的,一般分区的分区数的数不能大于kafka的broker数。 提高
阅读全文
摘要:前言 ogg即Oracle GoldenGate是Oracle的同步工具,本文讲如何配置ogg以实现Oracle数据库增量数据实时同步到kafka中,其中同步消息格式为json。 下面是我的源端和目标端的一些配置信息: - 版本 OGG版本 ip 别名 源端 OracleRelease 11.2.0
阅读全文
摘要:Kafka的ack机制,指的是producer的消息发送确认机制,这直接影响到Kafka集群的吞吐量和消息可靠性。而吞吐量和可靠性就像硬币的两面,两者不可兼得,只能平衡。 ACK有3个可选值,分别是1,0,-1。 ACK = 0 时, 发送一次 不论leader是否接收 ACK = 1 时, 等待l
阅读全文