摘要: 在前面两篇文章介绍了下载器中间件的使用,这篇文章将会介绍爬虫中间件(Spider Middleware)的使用。 爬虫中间件 爬虫中间件的用法与下载器中间件非常相似,只是它们的作用对象不同。下载器中间件的作用对象是请求request和返回response;爬虫中间件的作用对象是爬虫,更具体地来说,就 阅读全文
posted @ 2020-06-12 13:15 lincappu 阅读(483) 评论(0) 推荐(0) 编辑
摘要: 中间件是Scrapy里面的一个核心概念。使用中间件可以在爬虫的请求发起之前或者请求返回之后对数据进行定制化修改,从而开发出适应不同情况的爬虫。 “中间件”这个中文名字和前面章节讲到的“中间人”只有一字之差。它们做的事情确实也非常相似。中间件和中间人都能在中途劫持数据,做一些修改再把数据传递出去。不同 阅读全文
posted @ 2020-06-12 13:11 lincappu 阅读(436) 评论(0) 推荐(0) 编辑
摘要: 在上一篇文章中介绍了下载器中间件的一些简单应用,现在再来通过案例说说如何使用下载器中间件集成Selenium、重试和处理请求异常。 在中间件中集成Selenium 对于一些很麻烦的异步加载页面,手动寻找它的后台API代价可能太大。这种情况下可以使用Selenium和ChromeDriver或者Sel 阅读全文
posted @ 2020-06-12 13:10 lincappu 阅读(467) 评论(0) 推荐(0) 编辑