摘要: 爬虫url去重方法 将访问过的url保存到数据库中,然后爬取前查询校验(效率很低) 用python中的set去重,比如100000000个URL需要内存100000000*2byte*50/1024/1024/1024=9G(很占内存) URL经过MD5之后保存到set,一般一个MD5占128位=1 阅读全文
posted @ 2020-04-08 16:46 鱼虫光 阅读(155) 评论(0) 推荐(0) 编辑