摘要:
kafka中每个主题一般都会有很多个分区,为了及时消费到数据,我们可能会启动很多个消费者去一个消费topic中的数据。每个分区只能由消费组内的一个消费者去消费。那么,同一个消费组内的消费者是如何确定消费哪些分区的数据呢? kafka内部中存在两种分配策略:Range和RoundRobin。 kafk 阅读全文
摘要:
某些spark分区已经处理完数据,另一些分区还在处理数据,从而导致这个批次的作业消耗时间变长,甚至导致spark作业无法及时消费kafka中的数据。 解决办法: 1)修改kafkaRDD类的getPartition方法: 就是通过设置 topic.partition.subconcurrency 参 阅读全文
摘要:
region数量的影响: 通常较少的region可使集群运行的更加平稳,官方指出,每个regionServer大约100个regions的时候效果最佳,理由如下: 1)hbase的一个特性MSLAB,它有助于防止堆内存的碎片化,减轻垃圾回收full gc的问题,默认是开启的。但是每个MenStore 阅读全文