(2)RDD的基本操作

一、map操作,map(Transform)

二、collect操作,collect(Action)

三、使用PairRDD来做计算,类似key-value结构

采用groupByKey来。将资料按照Key值重新排序。

更好的解决方案:reduceByKey(Transform)

reduceByKey能够直接将资料根据key值聚合,减少多余的交换(shuffle)动作。

避免使用groupbykey,如果数据量过大,会造成内存溢出。

 

 

 

posted on 2018-10-10 14:32  吱吱了了  阅读(379)  评论(0编辑  收藏  举报

导航