scrapy不抓取重复的网页解决办法

classscrapy.http.Request(url[, callback, method='GET', headers, body, cookies, meta, encoding='utf-8', priority=0, dont_filter=False, errback, flags, cb_kwargs])

Scrapy的官方文档：

http://doc.scrapy.org/en/latest/topics/request-response.html#scrapy.http.Request

Ｒequest函数在文档中的定义：

class scrapy.http.Request(url[, callback, method='GET', headers, body, cookies, meta, encoding='utf-8', priority=0, dont_filter=False, errback])

在这儿， request的 dont_filter 设置为Ｔrue就可以了

也就是说

yield scrapy.Request(url=nexturl, callback=self.parse,dont_filter=True)
搞定

posted @ 2019-08-30 11:10 御剑之道阅读(969) 评论(0) 收藏举报

刷新页面返回顶部

御剑之道

scrapy不抓取重复的网页解决办法

公告