摘要: kafka中每个主题一般都会有很多个分区,为了及时消费到数据,我们可能会启动很多个消费者去一个消费topic中的数据。每个分区只能由消费组内的一个消费者去消费。那么,同一个消费组内的消费者是如何确定消费哪些分区的数据呢? kafka内部中存在两种分配策略:Range和RoundRobin。 kafk 阅读全文
posted @ 2019-09-11 17:30 www555 阅读(4507) 评论(0) 推荐(0) 编辑
摘要: 某些spark分区已经处理完数据,另一些分区还在处理数据,从而导致这个批次的作业消耗时间变长,甚至导致spark作业无法及时消费kafka中的数据。 解决办法: 1)修改kafkaRDD类的getPartition方法: 就是通过设置 topic.partition.subconcurrency 参 阅读全文
posted @ 2019-09-11 10:55 www555 阅读(2560) 评论(0) 推荐(0) 编辑
摘要: region数量的影响: 通常较少的region可使集群运行的更加平稳,官方指出,每个regionServer大约100个regions的时候效果最佳,理由如下: 1)hbase的一个特性MSLAB,它有助于防止堆内存的碎片化,减轻垃圾回收full gc的问题,默认是开启的。但是每个MenStore 阅读全文
posted @ 2019-09-11 10:17 www555 阅读(4651) 评论(1) 推荐(0) 编辑