重定向的响应不遵循allowed_domains ＃1042

tarunlalwani · on 7 Feb 2015

嗨，

如果我们添加allowed_domains并将来自同一个域的url重定向到另一个域，那么该域的结果也会得到处理，我相信应该对其进行过滤

allowed_domains =（'www.knowledgeinbox.com'，）

该网址重定向到www.tarlabs.com。结果仍然传递给我只对knowledgeinbox.com感兴趣的函数。不知道这是故意的，因为根据我的理解它的错误

请让我知道你的想法

问候，
塔伦

Granitosaurus · on 8 Feb 2015

我不认为这是一个错误。蜘蛛无法知道链接是否被重定向，直到链接在请求队列中被调用。

您可以设置蜘蛛设置REDIRECT_ENABLED = False来禁用重定向。

tarunlalwani · on 8 Feb 2015

我不是说它不应该遵循重定向。我所说的是，它最终下载了一个不在allowed_domain中的URL并调用parse_item。我们正在使用规则自动添加要处理的链接。我认为，即使重定向到另一个域，我认为我的回调将不会被调用。禁用重定向不是一个解决方案，因为它会禁用同一个域内的有效重定向

Digenis · on 8 Feb 2015

使用allowed_domains的OffsiteMiddleware实现为spidermiddleware。
不仅它在中间件堆栈中的地位阻止它过滤重定向，而且它的实现。
您需要在重定向中间件之后放置一个downlaoder中间件。

由于其简单的实现，
可以将其重构
为具有spider和downloader中间件的方法的更抽象的东西。

有没有人反对上游的OffsiteMiddleware的这种重构？
我会用它。

redapple · on 16 Sep 2016

R4v3n