scrapy 爬网站显示 Filtered offsite request to 错误 - allow_domains设置

爬取网站图片时,无法抓取.

在 setting.py 文件中设置日志记录等级

LOG_LEVEL= 'DEBUG'

LOG_FILE ='log.txt'

查看日志发现报

2017-08-26 15:00:45 [scrapy] DEBUG: Filtered offsite request to 'movie.mtime.com': <GET http://movie.mtime.com/12231/posters_and_images/>

这条日志记录有点奇怪果断上网百度 ,找到答案

官方对这个的解释，是你要request的地址和allow_domain里面的冲突(我的allow_domains=["http://www.mtime.com"])，从而被过滤掉。可以停用过滤功能。

yield Request(url, callback=self.parse_item, dont_filter=True)

posted @ 2017-08-26 15:25 笑面浮屠阅读(819) 评论(1) 编辑收藏举报

刷新页面返回顶部

笑面浮屠