随笔分类 -  Kafka

副本机制
摘要:副本的目的就是冗余备份,当某个broker上的分区数据丢失时,仍然可以保障数据可用。因为在其他的broker上的副本是可用的。 对副本关系较大的就是producer配置的acks参数。Acks参数表示当生产者生产消息的时候,写入到副本的要求严格程度。它决定了生产者如何在性能和可靠性之间做取舍。 Ac 阅读全文

posted @ 2021-08-01 21:17 Eleanor123 阅读(91) 评论(0) 推荐(1) 编辑

消费者分区分配策略
摘要:(1)Range范围分配 Range范围分配策略是kafka默认的分配策略,它可以确保每个消费者消费的分区数量是均衡的。需要注意的是range范围分配策略是针对每个topic的。 配置消费者的partition.assignment.strategy为org.apache.kafka.clients 阅读全文

posted @ 2021-07-25 22:33 Eleanor123 阅读(147) 评论(0) 推荐(1) 编辑

Rebalance再均衡
摘要:Kafka中的rebalance称之为再均衡,是Kafka中确保consumer group下所有的consumer如何达成一致,分配订阅的topic的每个分区的机制。 1、Rebalance触发的时机有: (1)消费者组中consumer的个数发生变化了。 例如有新的consumer加入到消费者组 阅读全文

posted @ 2021-07-23 23:31 Eleanor123 阅读(52) 评论(0) 推荐(1) 编辑

生产者分区写入策略
摘要:1、轮询策略:按照消息尽量保证每个分区的负载,消息会均匀分布到每个partition。写入消息的时候,key为null的时候,默认使用的是轮询策略。 2、随机策略:不使用。 3、按key写入策略:key.hash()%分区的数量。 4、自定义分区策略:类似于mapReduce指定分区。 乱序问题: 阅读全文

posted @ 2021-07-23 23:18 Eleanor123 阅读(105) 评论(0) 推荐(1) 编辑

Kafka事务
摘要:Kafka事务是2017年kafka0.11.0.0引入的新特性。类似于数据库的事务。 Kafka事务指的是生产者生产消息以及消费者提交offset的操作可以在一个原子操作中,要么都成功,要么都失败。 尤其是在生产者、消费者并存时,事务的保障尤其重要。 阅读全文

posted @ 2021-07-23 22:58 Eleanor123 阅读(74) 评论(0) 推荐(1) 编辑

幂等性
摘要:1、幂等性是什么 比如HTTP请求,一次或多次请求,得到的响应是一致的(网络超时等除外),就是执行多次和执行一次的操作影响是一样的。 如果某个系统是不具备幂等性的,用户重复提交了某个表格就会造成不良影响。例如,用户在浏览器上点击了多次提交订单按钮,会在后台生成一个一模一样的订单。 2、Kafka的幂 阅读全文

posted @ 2021-07-23 07:59 Eleanor123 阅读(216) 评论(0) 推荐(1) 编辑

消费者组
摘要:一个消费者组中可以包含多个消费者,共同来消费topic中的数据。 一个topic中如果只有一个分区,那么这个分区只能被某个组中的一个消费者消费。 有多少个分区,就可以被同一个组内的多少个消费者消费。 阅读全文

posted @ 2021-07-23 07:43 Eleanor123 阅读(59) 评论(0) 推荐(1) 编辑

Kafka中的重要概念
摘要:Broker:Kafka服务器进程,生产者、消费者都要连接broker。一个集群由多个broker组成,功能实现Kafka集群的负载均衡、容错。 Producer:生产者。 Consumer:消费者。 Topic:主题。一个Kafka集群中,可以包含多个topic,一个topic可以包含多个分区。T 阅读全文

posted @ 2021-07-23 07:38 Eleanor123 阅读(72) 评论(0) 推荐(1) 编辑

偏移量offset
摘要:Offset记录着下一条将要发送给consumer的消息的序号。 默认Kafka将offset存储在zookeeper中。 在一个分区中,消息是有顺序的方式存储的,每个在分区的消费都是由一个递增的id。这个就是偏移量offset。 偏移量在分区中才是由意义的。在分区之间,offset是没有任何意义的 阅读全文

posted @ 2021-07-23 07:31 Eleanor123 阅读(277) 评论(0) 推荐(1) 编辑

主题
摘要:主题是一个逻辑概念,用于生产者发布数据,消费者拉取数据 Kafka的主题必须有标识符,而且是唯一的,kafka中可以有任意数量的主题,没有数量上的限制。 在主题中的消息是有结构的,一般一个主题包含某一类消息。 一旦生产者发送消息到主题中,这些消息就不能被更新。 阅读全文

posted @ 2021-07-21 00:10 Eleanor123 阅读(142) 评论(0) 推荐(1) 编辑

消费者、生产者、消费者组概念
摘要:生产者:负责将数据推送给broker的topic 消费者:负责从broker的topic中拉取数据,并自己进行处理 消费者组: Consumer group是kafka提高的可扩展且具有容错性的消费者机制 一个消费者组可以包含多个消费者 一个消费者组有一个唯一的ID(group Id) 组内的消费者 阅读全文

posted @ 2021-07-21 00:02 Eleanor123 阅读(446) 评论(0) 推荐(1) 编辑

zookeeper
摘要:一个kafka的集群通常由多个broker组成,这样才能实现负载均衡,以及容错。 Broker是无状态sateless的,它们是通过zookeeper来维护集群状态。 一个kafka的broker每秒可以处理数十万次读写,每个broker都可以处理TB消息而不影响性能。 Zk用于管理和协调broke 阅读全文

posted @ 2021-07-16 00:55 Eleanor123 阅读(47) 评论(0) 推荐(1) 编辑

kafka学习常用的网站
摘要:1、kafka官网:http://kafka.apache.org/documentation/#introduction 2、Apache生态圈网址:https://cwiki.apache.org/confluence/display/kafka/ecosystem 3、kafka版本:http 阅读全文

posted @ 2021-07-16 00:40 Eleanor123 阅读(1794) 评论(0) 推荐(2) 编辑

Kafka的消息不丢失
摘要:(1)Broke消息不丢失:因为有副卡relicas的存在,会不断地从leader中同步副本,索引一个broker崩溃,不会导致说话间丢失,除非只有一个副本。 (2)生产者消息不丢失:ACK机制(配置为All/-1),配置0或1可能会存在丢失。 (3)消费者消费不丢失:重点控制offset At-l 阅读全文

posted @ 2021-07-13 00:41 Eleanor123 阅读(46) 评论(0) 推荐(1) 编辑

消息传递的语义性
摘要:Flink有对应的美中不同机制保证,提高exactly-once保障(二阶段事务提交方式) at-most once:最多一次,只管把数据消费,不管是否成功,会不会有数据丢失。 at-least-once:最少一次,可能会出现重复消费。 Exactly-once:仅有一次,事务性的保证,保证消息有且 阅读全文

posted @ 2021-07-13 00:39 Eleanor123 阅读(38) 评论(0) 推荐(1) 编辑

日志删除
摘要:日志删除是以段(segment日志)为单位来进行定期清理的。 Kafka日志管理器中会有一个专门的日志删除任务来定期检测和删除不符合保留条件的日志分段文件,这个周期可以通过broker端参数log.retention.check.interval.ms来配置,默认是300,000,即5分钟。当前日志 阅读全文

posted @ 2021-07-13 00:31 Eleanor123 阅读(244) 评论(0) 推荐(1) 编辑

Kafka中的数据清理(logdeletion)
摘要:Kafka的消息存储在磁盘中,为了控制磁盘占用空间,kafka需要不断地对过去一些消息进行清理工作。 Kafka的每个分区都有很多的日志文件,这也是为了方便进行日志清理。在kafka中,提供两种日志清理方式: 日志删除:log deletion,按照指定的策略直接删除不符合条件的日志。 日志压缩:l 阅读全文

posted @ 2021-07-13 00:12 Eleanor123 阅读(938) 评论(0) 推荐(1) 编辑

数据积压
摘要:数据积压指的是消费者因为一些外部的IO、一些比较耗时的操作(full GC--stop the world),就会造成消息在partition中一直存在得不到消费,就会产生数据积压。 所以需要监控系统(kafka的监控系统Eagle),如果出现这种情况,需要尽快处理,虽然后续的spark strea 阅读全文

posted @ 2021-07-13 00:03 Eleanor123 阅读(296) 评论(0) 推荐(1) 编辑

为什么选择kafka?
摘要:常见消息中间件对比 特性 ActiveMQ RabbitMQ Kafka RocketMQ 所属公司 Apache Mozilla public license Apache Apache/ali 成熟度 成熟 成熟 成熟 比较成熟 生产-消费者模式 支持 支持 支持 支持 发布-订阅 支持 支持 阅读全文

posted @ 2021-07-11 16:41 Eleanor123 阅读(82) 评论(0) 推荐(1) 编辑

哪些公司在用kafka?
摘要:Google Tencent cloud Facebook Pineapple Fund Microsoft Aws Comcast Cloudera Verizon media Leaseweb ARM Bloomberg HUAWEI red hat,Inc. IBM Inspur JetBra 阅读全文

posted @ 2021-07-11 16:38 Eleanor123 阅读(144) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示