spark在collect收集数据的时候出现outOfMemoryError:java heap space
spark的collect是action算子,所有最后会以数组的形式返回给driver端,当数据太大的时候就会出现堆内存溢出。OutofMemoryError:java heap space。
在spark中默认的数据的存储是1G的大小,spark.default.memory(default 1G)
解决方案:以saveAsTextFile算子将收集到的数据在文本的形式收集到本地磁盘或hdf文件系统。