摘要:
区别在于sc.map是将RDD下的所有行数据统计处理。而sc.mapPartitions是按RDD分区进行数据统计处理。测试一下:val data = sc.parallelize(1 to 6,3)def mapTest(param1:Int):Int={ println("by map,data... 阅读全文
摘要:
val data1 = sc.wholeTextFiles("/opt/test")val data = sc.textFile("/opt/test/")使用textFile时,它的partition的数量是与文件夹下的文件数量相关,一个文件就是一个partition。wholeTextFiles... 阅读全文