摘要: Scarpy05--增量式爬虫、分布式爬虫 一. 增量式爬虫 顾名思义:可以对网站进行反复抓取,然后发现新东西了就保存起来,遇到了以前抓取过的内容就自动过滤掉即可 其核心思想:去重,并且可以反复去重。随时运行一下,将不同的数据保存出来,相同的数据去除掉(不保存)即可 增量爬虫的核心:去除重复 去除u 阅读全文
posted @ 2024-04-25 01:01 Edmond辉仔 阅读(29) 评论(0) 推荐(0) 编辑