2009年6月30日
摘要: 原文地址:http://hi.baidu.com/searchchina/blog/item/5271975975915b2f2934f07a.html读larbin的源码曾经赞叹它去重方法的设计,虽然有一定的冲突率,但是效率极高,占用的内存非常小,按照larbin的配置,下载6400万网页,使用的内存只有8M。算法特点总结如下: 1、使用hash; 2、将每个url映射到一位; 3、超找的时间是... 阅读全文
posted @ 2009-06-30 20:43 Myhsg 阅读(778) 评论(0) 推荐(0) 编辑