会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
燕十三丶
给大家唱一首蜗牛🎤
博客园
首页
新随笔
联系
订阅
管理
2020年5月26日
大量的URL 字符串,如何从中去除重复的,优化时间空间复杂度
摘要: 1、内存够用,将URL存入hash链表,每个URL读入到hash链表中,遇到重复的就舍弃,否则加入到链表里面,最后遍历得到所有不重复的URL。 2、如果受内存限制,构造一个hash函数,把url适当散列到若干个比如1000个小文件中,然后在每个小文件中去除重复的url,再把他们合并。 原理是相同的u
阅读全文
posted @ 2020-05-26 09:58 燕十三丶
阅读(564)
评论(0)
推荐(0)
编辑
公告