会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
鱼虫光
首页
新随笔
管理
2020年4月8日
面试题之爬虫
摘要: 爬虫url去重方法 将访问过的url保存到数据库中,然后爬取前查询校验(效率很低) 用python中的set去重,比如100000000个URL需要内存100000000*2byte*50/1024/1024/1024=9G(很占内存) URL经过MD5之后保存到set,一般一个MD5占128位=1
阅读全文
posted @ 2020-04-08 16:46 鱼虫光
阅读(155)
评论(0)
推荐(0)
编辑
公告