文章分类 -  Kafka

摘要:kafka高效读写数据的原因: kafka本身是分布式集群,多台服务器来共同处理一件事,效率高 采用分区技术存储,将海量数据切分成一块一块并行存储,同时生产者可以并行给不同的分区推送数据,消费者可以并行消费,提升效率 采用稀疏索引,可以快速定位数据,提升查找速率 以追加日志的方式顺序写入磁盘,速度快 阅读全文
posted @ 2022-03-09 20:01 迷路小孩 阅读(173) 评论(0) 推荐(0) 编辑
摘要:offset的默认维护位置: 每个broker都会维护一个对应的_consumer_offsets系统主题,用来记录消费者消费分区数据的位置。0.9版本以前是记录在zk中的。 _consumer_offsets主题采用key和value的方式存储数据,key是groupid + topic + pa 阅读全文
posted @ 2022-03-09 12:34 迷路小孩 阅读(3394) 评论(0) 推荐(0) 编辑
摘要:Zookeeper中存储的kafka信息: Kafka工作流程: Kafka副本: Kafka默认是一个副本,生产环境中,一般会设置两个副本 副本的作用就是为了保证数据的可靠性,但副本也不能太多,否则占用太多资源影响性能 副本分为leader和follower,所有的数据读取操作都是对leader操 阅读全文
posted @ 2022-03-08 18:01 迷路小孩 阅读(223) 评论(0) 推荐(0) 编辑
摘要:在创建topic主题时,必须指定分区数和副本数,否则无法创建成功! 生产者send数据时的分区策略: 指定分区:将数据直接写入指定分区 没有指定分区,但有key: 取key的hash值与partition数 取余 得到的值便是 存入的分区 没有指定分区,也没有key,只有value:随机选择一个分区 阅读全文
posted @ 2022-03-08 12:46 迷路小孩 阅读(332) 评论(0) 推荐(0) 编辑
摘要:Kafka 传统定义:是一个分布式的,基于“发布/订阅”模式的消息队列,主要应用于大数据实时处理领域。 kafka最新定义:是一个开源的分布式事件流平台,被数千家公司用于高性能数据管道、流分析、数据集成和关键任务应用。 在目前企业中,常见的消息队列有:Kafka、ActiveMQ 、RabbitMQ 阅读全文
posted @ 2022-03-07 23:32 迷路小孩 阅读(230) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示