Spark性能优化-coalesce(n)

有时用Spark 运行Job 的时候,输出可能会出现一些空或者小内容。这时重新将输出的Partition 进行重新调整,可以减少RDD中Patition的数目。
两种方式:
1. coalesce(numPartitions:Int, shuffle:Boolean = false)
2. repartition(numPartitions:Int)

 

posted @ 2015-08-10 16:54  evashi  阅读(793)  评论(0编辑  收藏  举报