reduceByKey和groupByKey的区别

  • reduceByKey:按照key进行聚合,在shuffle之前有combine(预聚合)操作,返回结果是RDD[k,v]

  • groupByKey:按照key进行分组,直接进行shuffle

    建议使用reduceByKey。但是需要注意是否会影响业务逻辑

posted @ 2019-09-04 07:55  北漂屌丝  阅读(789)  评论(0编辑  收藏  举报