摘要: /** * 使用随机数和扩容表进行join */ JavaPairRDD expandedRDD = userid2InfoRDD.flatMapToPair( new PairFlatMapFunction, String, Row>() { ... 阅读全文
posted @ 2018-12-19 17:51 阿文awen 阅读(415) 评论(0) 推荐(0) 编辑
摘要: /** * sample采样倾斜key单独进行join */ JavaPairRDD sampledRDD = userid2PartAggrInfoRDD.sample(false, 0.1, 9); JavaPairRDD mappedSampledRDD = sample... 阅读全文
posted @ 2018-12-19 17:50 阿文awen 阅读(430) 评论(0) 推荐(0) 编辑
摘要: 一.了解数据倾斜 数据倾斜的原理: 在执行shuffle操作的时候,按照key,来进行values的数据的输出,拉取和聚合.同一个key的values,一定是分配到一个Reduce task进行处理. 假如多个key对应的values,总共是90万,但是可能某个key对应了88万条数据,key-88 阅读全文
posted @ 2018-12-19 09:32 阿文awen 阅读(3328) 评论(2) 推荐(2) 编辑