Hadoop_我理解的Map-Reduce

简单的来说分为四个阶段：InputFormat/MapTask/Shuffle/ReduceTask

InputFormat: 输入文件 --> 转化 --> <K, V>

MapTask : <K, V> --> map处理 --> <K', V'>

Shuffle : <K', V'> --> Sort and Group --><K', List(V')>

ReduceTask: <K', List(V')> --> Reduce处理 --> <K'', V''>

从头至尾是以<K, V>为参数在传递
他的心脏Shuffle完成的Sort and Group主要用到的数据结构/算法是：
环状队列，小根堆 / 快排，堆排序

posted @ 2012-09-25 11:02 雲端之風阅读(202) 评论(0) 收藏举报

刷新页面返回顶部