Kafka - 文章分类 - niutao

根据kafka的零拷贝机制来确定集群需要多大内存

摘要：1、首先要大概知道非0拷贝机制传统的读取文件数据并发送到网络的步骤如下：（1）操作系统将数据从磁盘文件中读取到内核空间的页面缓存；（2）应用程序将数据从内核空间读入用户空间缓冲区；（3）应用程序将读到数据写回内核空间并放入socket缓冲区；（4）操作系统将数据从socket缓冲区复制到网阅读全文

posted @ 2020-05-21 12:19 niutao 阅读(1640) 评论(1) 推荐(1) 编辑

关于kafka定期清理日志后再消费报错kafka.common.OffsetOutOfRangeException的解决

摘要：环境： kafka 0.10 spark 2.1.0 zookeeper 3.4.5-cdh5.14.0 公司阿里云测试机，十月一放假前，没有在继续消费，假期过后回来再使用spark streaming消费某个消费组下的kafka时报错如下： As I regularly kill the serv 阅读全文

posted @ 2019-10-11 15:48 niutao 阅读(2064) 评论(0) 推荐(0) 编辑

删除了原有的offset之后再次启动会报错park Streaming from Kafka has error numRecords must not ...

摘要：笔者使用Spark streaming读取Kakfa中的数据，做进一步处理，用到了KafkaUtil的createDirectStream()方法；该方法不会自动保存topic partition的offset到zk，需要在代码中编写提交逻辑，此处介绍了保存offset的方法。当删除已经使用过的k 阅读全文

posted @ 2017-04-22 17:24 niutao 阅读(664) 评论(0) 推荐(0) 编辑

sparkStreaming消费kafka-1.0.1方式：direct方式（存储offset到Hbase）

摘要：话不多说，可以看上篇博文，关于offset存储到zookeeper https://www.cnblogs.com/niutao/p/10547718.html 本篇博文主要告诉你如何将offset写到Hbase做存储：最后存储到Hbase的展现形式： testDirect:co:15526675 阅读全文

posted @ 2017-04-17 17:20 niutao 阅读(352) 评论(0) 推荐(0) 编辑

sparkStreaming消费kafka-1.0.1方式：direct方式（存储offset到zookeeper）-- 2

摘要：参考上篇博文：https://www.cnblogs.com/niutao/p/10547718.html 同样的逻辑，不同的封装 package offsetInZookeeper /** * Created by angel */ import java.lang.Object import k 阅读全文

posted @ 2017-03-17 17:22 niutao 阅读(550) 评论(0) 推荐(0) 编辑

sparkStreaming消费kafka-1.0.1方式：direct方式（存储offset到zookeeper）

摘要：版本声明： kafka：1.0.1 spark：2.1.0 注意：在使用过程中可能会出现servlet版本不兼容的问题，因此在导入maven的pom文件的时候，需要做适当的排除操作 1 <?xml version="1.0" encoding="UTF-8"?> 2 <project xmlns=" 阅读全文

posted @ 2017-03-17 16:58 niutao 阅读(1210) 评论(0) 推荐(0) 编辑

kafka的一些常用命令

摘要：依次在各节点上启动: kafkabin/kafka-server-start.sh config/server.properties 查看当前服务器中的所有topic bin/kafka-topics.sh --list --zookeeper hadoop01:2181 创建topic bin/k 阅读全文

posted @ 2015-08-23 17:31 niutao 阅读(1604) 评论(0) 推荐(0) 编辑

sparkStreaming消费kafka-0.8方式：direct方式（存储offset到zookeeper）

摘要：生产中，为了保证kafka的offset的安全性，并且防止丢失数据现象，会手动维护偏移量（offset）版本：kafka：0.8 其中需要注意的点： 1：获取zookeeper记录的分区偏移量 2：获取broker中实际的最小和最大偏移量 3：将实际的偏移量和zookeeper记录的偏移量进行对比阅读全文

posted @ 2015-03-11 16:41 niutao 阅读(962) 评论(0) 推荐(0) 编辑

kafka其中一台节点坏掉的迁移或者数据迁移

摘要：kafka版本：适用于目前2.0以下第一步：假如有一个topic叫做test，当前topic的详情是这样的： [cdh@cdh1 kafka_2.11-1.0.1]$ bin/kafka-topics.sh --topic test --describe --zookeeper hadoop01 阅读全文

posted @ 2015-02-19 16:31 niutao 阅读(1140) 评论(0) 推荐(0) 编辑

sparkStreaming序列化问题

摘要：执行sparkSTreaming+kafka 报错如下： org.apache.spark.SparkException: Task not serializable ...... Caused by: java.io.NotSerializableException: org.I0Itec.zkc 阅读全文

posted @ 2014-03-17 16:13 niutao 阅读(334) 评论(0) 推荐(0) 编辑

文章分类 - Kafka