每日日报2021 10/5

今天学习mapreduce的排序。

排序是MapReduce框架中最重要的操作之一。

MapTask和ReduceTask均会对数据按照key进行排序。该操作属于Hadoop的默认行为。任何应用程序中的数据均会被排序，而不管逻辑上是否需要。

默认排序是按照字典顺序排序，且实现该排序的方法是快速排序。

对于MapTask，它会将处理的结果暂时放到环形缓冲区中，当环形缓冲区使

用率达到一定阈值后，再对缓冲区中的数据进行一次快速排序，并将这些有序数

据溢写到磁盘上，而当数据处理完毕后，它会对磁盘上所有文件进行归并排序。

对于ReduceTask，它从每个MapTask上远程拷贝相应的数据文件，如果文件大

小超过一定阈值，则溢写磁盘上，否则存储在内存中。如果磁盘上文件数目达到

一定阈值，则进行一次归并排序以生成一个更大文件；如果内存中文件大小或者

数目超过一定阈值，则进行一次合并后将数据溢写到磁盘上。当所有数据拷贝完

毕后，ReduceTask统一对内存和磁盘上的所有数据进行一次归并排序。

posted @ 2021-10-05 15:22 宋振兴阅读(20) 评论(0) 编辑收藏举报

刷新页面返回顶部

宋振兴