2020 年 5月 26 日随笔档案 - 燕十三丶

2020年5月26日

摘要： 1、内存够用，将URL存入hash链表，每个URL读入到hash链表中，遇到重复的就舍弃，否则加入到链表里面，最后遍历得到所有不重复的URL。 2、如果受内存限制，构造一个hash函数，把url适当散列到若干个比如1000个小文件中，然后在每个小文件中去除重复的url，再把他们合并。原理是相同的u 阅读全文

posted @ 2020-05-26 09:58 燕十三丶阅读(564) 评论(0) 推荐(0) 编辑

燕十三丶

给大家唱一首蜗牛🎤

公告