Hadoop之MapReduce - 我想做个好人 - 博客园

Hadoop之MapReduce

MAP：

映射、变换、过滤
1进N出

Reduce：

分解、缩小、归纳
一组进N出

（KEY,VALUE）：

键值对的键划分数据分组

MapReduce流程图

MapTask

1.切片会格式化，然后调用map方法
2.map的输出要映射成KV，KV会参与分区计算，算出分区号P，最终输出（K,V,P）到buffer区（buffer默认是100M，阈值为80%）
3.buffer是一个环形缓冲区，本质就是线性字节数组，两端分别向中间写，一端是写KV数据，另一端是写KV的索引，索引固定16B（int P，int keyStart，int valueStart，int valueLength），如果数据填充到阈值80%，启动线程快速排序，快速排序中比较的是key的值（从索引中取出），比较之后交换的是索引的位置，排序是二次排序，分区号有序，分区内key也有序。
4.当buffer排序之后，准备溢写到磁盘之前，用户可以选择启动combiner，按组统计
5.mapTask的输出是一个文件，保存在本地的文件系统中，当这些小文件超过3个（默认值，用户可以设置），合并成大文件，也会触发combine，但是必须是幂等的。

ReduceTask

1.shuffle ：洗牌（相同的key被拉取到一个分区）
2.sort ：整个MapReduce框架中只有map端是无序到有序的过程，reduce这里的sort其实是对排好序的一堆小文件做归并的过程
3.reduce怎么工作的，通过run方法：rIter = shuffle 包装成迭代器，里面包含该分区所有组的数据。reduce方法被调用的时候，并没有把一组数据真的加载到内存中，而是传递一个迭代器-values，在reduce方法使用该迭代器的时候，hasNext方法判断nextKeyIsSame(),取出当前key和下一条的key比较，不相同就证明不是一组数据,相同就继续执行while循环，进行统计。next方法负责调取nextKeyValue方法，从reduceTask级别的迭代器中取记录，并同时更新nextKeyIsSame()。
4.reduce运用了迭代器模式：规避了内存OOM的问题

posted on 2020-04-22 20:46 我想做个好人阅读(158) 评论(0) 编辑收藏举报

刷新页面返回顶部

导航

公告