Hadoop_我理解的Map-Reduce

简单的来说分为四个阶段:InputFormat/MapTask/Shuffle/ReduceTask

InputFormat:   输入文件 --> 转化 --> <K, V>

MapTask :       <K, V>  --> map处理 --> <K', V'>

Shuffle :         <K', V'> --> Sort and Group --><K', List(V')>

ReduceTask:   <K', List(V')> --> Reduce处理 --> <K'', V''>

从头至尾是以<K, V>为参数在传递
他的心脏Shuffle完成的Sort and Group主要用到的数据结构/算法是:
环状队列,小根堆 / 快排,堆排序

posted @ 2012-09-25 11:02  雲端之風  阅读(191)  评论(0编辑  收藏  举报