摘要: 众所周知,Hadoop框架使用Mapper将数据处理成一个键值对,再网络节点间对其进行整理(shuffle),然后使用Reducer处理数据并进行最终输出。 在上述过程中,我们看到至少两个性能瓶颈:如果我们有10亿个数据,Mapper会生成10亿个键值对在网络间进行传输,但如果我们只是对数据求最大值... 阅读全文
posted @ 2014-10-30 18:29 soaringEveryday 阅读(709) 评论(0) 推荐(0) 编辑