2014 年 10月 30 日随笔档案 - soaringEveryday

2014年10月30日

摘要：众所周知，Hadoop框架使用Mapper将数据处理成一个键值对，再网络节点间对其进行整理(shuffle)，然后使用Reducer处理数据并进行最终输出。在上述过程中，我们看到至少两个性能瓶颈：如果我们有10亿个数据，Mapper会生成10亿个键值对在网络间进行传输，但如果我们只是对数据求最大值... 阅读全文

posted @ 2014-10-30 18:29 soaringEveryday 阅读(709) 评论(0) 推荐(0) 编辑

soaringEveryday

公告