spark-repartition作用
spark-repartition
问题描述:
streaming 消费多个topic,但是不同topic的每个分区的数据量差距很大,一个数量级以上。导致每个task消费的数据量不一样,
造成严重的数据倾斜。所以需要进行一次repartition使得处理起来比较均匀。
[ 转自 : https://www.jianshu.com/p/9690f5bcd950
作者:pcqlegend
链接:https://www.jianshu.com/p/9690f5bcd950
来源:简书 ]