超大文件排序

第1步> 超大文件排序

c++，Vs2013下开发，win10 64。
2015/10/30

即：随机生成一个长度n的字符串；

但是效率比较低。

改进：
- 若内存允许，将字符表中的单个元素两两组合，得到一个元素长度为2的字符串集合的候选列表。
- 同理，由字符表和元素长度为2的字符串集合的候选列表可以得到元素长度为3的字符串集合的候选列表....以此类推。
- 将包含单个字符的字符表，元素长度为2的字符串集合的候选列表，元素长度为3的字符串集合的候选列表放到一个表里面，得到最终的候选字符串列表。
算法：
1. 新建一个空的字符串
2. 每次从候选字符串列表中随机选择一个字符串，添加到字符串中，重复n次。
3. 将字符串存到文件中，重复足够多次，得到随机文件。

步骤1
这里借用快速排序（分治）的思想，将文件分成足够小的小文件，并用一个树结构保存生成的文件名。

step1，将选取文件第一个字符串作为标准字符串，将文件分成两个较小的文件；
step2，第一个文件中所有的字符串比标准字符串小或等于，第二个文件中所有的字符串比标准字符串大；
step3，判断生成的文件的大小，若足够小，则对其中的数据全部读入内存，排序；若还是比较大，则对该文件继续执行step1。
step4 合并。每个足够小的文件中的内容都排序后，根据纪录分解过程的树的最外围的子叶节点所记录的文件进行合并（已知前一个文件中所有的元素比后面文件中的小，只要把后一个文件追加到前一个就可以）。生成一个已经拍好序的大文件。
step5 根据据纪录分解过程的树，删除分解过程中生成的临时文件。

如图，每个节点代表一个文件，节点的左子节点的文件中的所有的字符串比右子节点的文件中的所有的字符串小。
将所有最外围的叶节点依次排序，就能得到排好序的大文件。

结果示例。

借用归并排序中归并的方法（多路归并）.

分类: c++, 算法

posted @ 2021-03-10 20:20 kelelipeng 阅读(435) 评论(0) 编辑收藏举报

刷新页面返回顶部