2012 年 3月 7 日随笔档案 - 南风又起

2012年3月7日

摘要：海量数据问题：分治，哈希，堆，trie树堆：适用范围：海量数据前n大，并且n比较小，堆可以放入内存基本原理及要点：最大堆求前n小，最小堆求前n大。方法，比如求前n小，我们比较当前元素与最大堆里的最大元素，如果它小于最大元素，则应该替换那个最大元素。这样最后得到的n个元素就是最小的n个。适合大数据量，求前n小，n的大小比较小的情况，这样可以扫描一遍即可得到所有的前n元素，效率很高。扩展：双堆，一个最大堆与一个最小堆结合，可以用来维护中位数。问题实例： 1)100w个数中找最大的前100个数。用一个100个元素大小的最小堆即可。trie树：适用范围：数据量大，重复多，但是数据种类小可以放入内.. 阅读全文

posted @ 2012-03-07 16:52 南风又起阅读(197) 评论(0) 推荐(0) 编辑

公告