摘要: 在进行MapReduce计算时,有时候需要把最终的输出数据分到不同的文件中,比如按照省份划分的话,需要把同一省份的数据放到一个文件中;按照性别划分的话,需要把同一性别的数据放到一个文件中。我们知道最终的输出数据是来自于Reducer任务。那么,如果要得到多个文件,意味着有同样数量的Reducer任务 阅读全文
posted @ 2016-09-24 15:23 hadoop_dev 阅读(6610) 评论(0) 推荐(3) 编辑
摘要: 转载http://my.oschina.net/Chanthon/blog/150500 map和reduce是hadoop的核心功能,hadoop正是通过多个map和reduce的并行运行来实现任务的分布式并行计算,从这个观点来看,如果将map和reduce的数量设置为1,那么用户的任务就没有并行 阅读全文
posted @ 2016-09-24 11:17 hadoop_dev 阅读(6867) 评论(0) 推荐(0) 编辑