careercup-排序和查找 11.4
11.4 设想你有一个20GB的文件,每一行一个字符串。请说明将如何对这个文件进行排序。
解法:
当面试官给出20GB大小的限制时,实际上在暗示些什么。就此题而言,这表明他们不希望你将数据全部载入内存。该怎么办呢?做法是只将部分数据载入内存。
我们将整个文件划分为许多块,每个块xMB,其中x是可用的内存大小。每个块各自进行排序,然后存回文件系统。各个块一旦完成排序,我们便将这些块逐一合并在一起,最终就能得到全都排好序的文件。
这个算法被称为外部排序。