摘要: 当在Map阶段输入数据逻辑上很大(二十G)(存在hdfs上实际都是以64M的块存储),而你的集群数量不是很大(只有十台),这样造成会有很多的Map(320个),造成map效率不是很高这里可以通过设置ConfigurationConfiguration defaultConf = new Configuration();defaultConf.set("mapred.min.split.size", "134217728"); //默认为64M,这里改为128M来增大map的split的大小将Map数减少为160个hadoop版本:1.0.4 阅读全文
posted @ 2013-01-16 16:56 風吹云动 阅读(334) 评论(0) 推荐(0) 编辑