摘要: 海量数据问题:分治,哈希,堆,trie树堆:适用范围:海量数据前n大,并且n比较小,堆可以放入内存基本原理及要点:最大堆求前n小,最小堆求前n大。方法,比如求前n小,我们比较当前元素与最大堆里的最大元素,如果它小于最大元素,则应该替换那个最大元素。这样最后得到的n个元素就是最小的n个。适合大数据量,求前n小,n的大小比较小的情况,这样可以扫描一遍即可得到所有的前n元素,效率很高。扩展:双堆,一个最大堆与一个最小堆结合,可以用来维护中位数。问题实例: 1)100w个数中找最大的前100个数。 用一个100个元素大小的最小堆即可。trie树:适用范围:数据量大,重复多,但是数据种类小可以放入内.. 阅读全文
posted @ 2012-03-07 16:52 南风又起 阅读(197) 评论(0) 推荐(0) 编辑