(2)RDD的基本操作
一、map操作,map(Transform)
二、collect操作,collect(Action)
三、使用PairRDD来做计算,类似key-value结构
采用groupByKey来。将资料按照Key值重新排序。
更好的解决方案:reduceByKey(Transform)
reduceByKey能够直接将资料根据key值聚合,减少多余的交换(shuffle)动作。
避免使用groupbykey,如果数据量过大,会造成内存溢出。
采用groupByKey来。将资料按照Key值重新排序。
reduceByKey能够直接将资料根据key值聚合,减少多余的交换(shuffle)动作。
避免使用groupbykey,如果数据量过大,会造成内存溢出。