会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
御剑之道
博客园
首页
新随笔
联系
订阅
管理
2019年8月30日
scrapy不抓取重复的网页解决办法
摘要: 1、scrapy爬虫遇到一个问题,有时候会对一个网页重复爬取提取不同的数据,这时候会发现,后面的那个重复爬取scrapy直接终止了。 原因: scrapy 的request逻辑里面 dont_filter=False,也就是重复网页不爬取,需要修改下这个参数 classscrapy.http.Req
阅读全文
posted @ 2019-08-30 11:10 御剑之道
阅读(935)
评论(0)
推荐(0)
编辑
公告