摘要: 首先以spark的本地模式测试spark API,以local的方式运行spark-shell:先从parallelize入手吧:map操作后结果:下面看下 filter操作:filter执行结果:我们用最正宗的scala函数式编程的风格:执行结果:从结果 可以看出来,与之前那种分步奏方式结果是一样... 阅读全文
posted @ 2015-01-22 12:05 stark_summer 阅读(167) 评论(0) 推荐(0) 编辑
摘要: 问题1:reduce task数目不合适解决方案:需要根据实际情况调整默认配置,调整方式是修改参数spark.default.parallelism。通常的,reduce数目设置为core数目的2-3倍。数量太大,造成很多小任务,增加启动任务的开销;数目太小,任务运行缓慢。所以要合理修改reduce... 阅读全文
posted @ 2015-01-22 10:35 stark_summer 阅读(311) 评论(0) 推荐(0) 编辑