在合适的时候使用Combiner

在合适的场景使用Combiner，可以大幅提升MapReduce 性能。

map和 reduce 函数的输入输出都是key-value，Combiner和它们是一样的。作为map和reduce的中间环节，它的作用是聚合map task的磁盘，减少map端磁盘写入，减少reduce端处理的数据量，对于有大量shuffle的job来说，性能往往取决于reduce端。因为reduce 端要经过从map端copy数据、reduce端归并排序，最后才是执行reduce方法，此时如果可以减少map task输出将对整个job带来非常大的影响。

什么时候可以使用Combiner？

比如你的Job是WordCount，那么完全可以通过Combiner对map 函数输出数据先进行聚合，然后再将Combiner输出的结果发送到reduce端。

什么时候不能使用Combiner？

WordCount在reduce端做的是加法，如果我们reduce需求是计算一大堆数字的平均数，则要求reduce获取到全部的数字进行计算，才可以得到正确值。此时，是不能使用Combiner的，因为会其会影响最终结果。注意事项：即使设置Combiner，它也不一定被执行（受参数min.num.spills.for.combine影响），所以使用Combiner的场景应保证即使没有Combiner，我们的MapReduce也能正常运行。

posted on 2016-07-28 09:37 羽溪夜阅读(204) 评论(0) 编辑收藏举报

刷新页面返回顶部

在合适的时候使用Combiner

导航

公告