摘要:
/** * 使用随机数和扩容表进行join */ JavaPairRDD expandedRDD = userid2InfoRDD.flatMapToPair( new PairFlatMapFunction, String, Row>() { ... 阅读全文
摘要:
/** * sample采样倾斜key单独进行join */ JavaPairRDD sampledRDD = userid2PartAggrInfoRDD.sample(false, 0.1, 9); JavaPairRDD mappedSampledRDD = sample... 阅读全文
摘要:
一.了解数据倾斜 数据倾斜的原理: 在执行shuffle操作的时候,按照key,来进行values的数据的输出,拉取和聚合.同一个key的values,一定是分配到一个Reduce task进行处理. 假如多个key对应的values,总共是90万,但是可能某个key对应了88万条数据,key-88 阅读全文