摘要: 例如对一个JavaPairRDD<String, String>做遍历操作,常见的,我们可以通过先通过collect()操作将它转化为Map对象再进行遍历,也可以使用Spark提供的mapToPair方法进行遍历。然而两者的性能差距是非常显著的。 仅仅遍历1500条长度为155的序列,前者需要消耗6 阅读全文
posted @ 2016-12-17 20:28 蓝鲸王子 阅读(3116) 评论(0) 推荐(0) 编辑
摘要: 参考原文:http://blog.javachen.com/2015/06/09/memory-in-spark-on-yarn.html?utm_source=tuicool 运行文件有几个G大,默认的spark的内存设置就不行了,需要重新设置。还没有看Spark源码,只能先搜搜相关的博客解决问题 阅读全文
posted @ 2016-12-17 18:37 蓝鲸王子 阅读(2466) 评论(0) 推荐(0) 编辑