摘要: 转自:AIfred 事实证明外排序的效率主要依赖于磁盘,归并阶段采用K路归并可以显著减少IO量,最小堆并行k路归并,效率倍增。 二路归并的思路会导致非常多冗余的磁盘访问,两组两组合并确定的是当前的相对位置并不能一次确定最终的位置。 K路归并,每一轮归并直接确定的是最终的位置,不用重复访问,减少IO。 阅读全文
posted @ 2018-09-05 17:02 demianzhang 阅读(2917) 评论(0) 推荐(0) 编辑
摘要: 转自:AIfred 问题: 对一个 10GB 的数据文件排序,而计算机内存仅有 4GB 思路: 将整个文件读入内存排序显然不行。可以将这个 10GB 的大文件分区为 100 个 100MB 的小文件,把这些小文件的数据依次读入内存、排序、再输出,于是我们便得到了 100 个各自有序的小文件。接下来再 阅读全文
posted @ 2018-09-05 16:51 demianzhang 阅读(4372) 评论(0) 推荐(0) 编辑