scrapy DEBUG: Filtered offsite request to 'news.cnblogs.com'
scrapy DEBUG: Filtered offsite request to 'news.cnblogs.com'
在用scrapy写爬虫的时候遇到一个问题,在首页里,进入不了parse_detail()函数,如图:
当然,在这之前也设过断点在parse函数里post_url是可以正常获取的。
另外,在调试parse_detail()函数的时候也是把parse()函数里的断点去除了的。
不太理解,然后再次run一下,发现debug里的诸多信息中有一个:DEBUG: Filtered offsite request to 'news.cnblogs.com'。
大概原因是二次解析域名的时候被过滤掉了。
解决这个问题的办法就是:在callback里加入dont_filter=True就可以了: