会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Edmond辉仔
博客园
首页
新随笔
联系
订阅
管理
2024年4月25日
19--Scarpy05:增量式爬虫、分布式爬虫
摘要: Scarpy05--增量式爬虫、分布式爬虫 一. 增量式爬虫 顾名思义:可以对网站进行反复抓取,然后发现新东西了就保存起来,遇到了以前抓取过的内容就自动过滤掉即可 其核心思想:去重,并且可以反复去重。随时运行一下,将不同的数据保存出来,相同的数据去除掉(不保存)即可 增量爬虫的核心:去除重复 去除u
阅读全文
posted @ 2024-04-25 01:01 Edmond辉仔
阅读(29)
评论(0)
推荐(0)
编辑
公告