2018年10月27日

摘要: Downloader Middlewares(下载器中间件) 下载器中间件是引擎和下载器之间通信的中间件。在这个中间件中我们可以设置代理、更换请求头等来达到反反爬虫的目的。要写下载器中间件,可以在下载器中实现两个方法。一个是 ,这个方法是在请求发送之前执行,还有一个是 ,这个方法是数据下载到引擎之前 阅读全文
posted @ 2018-10-27 22:50 Gloo 阅读(410) 评论(0) 推荐(0) 编辑
 
摘要: 下载文件和图片 Scrapy为下载item中包含的文件(比如在爬取到产品时,同时也想保存对应的图片)提供了一个可重用的 。这些 有些共同的方法和结构我们称之为 。一般来说你会使用 或者 。 为什么要选择使用 内置的下载文件的方法 1. 避免重新下载最近已经下载过的数据。 2. 可以方便的指定文件存储 阅读全文
posted @ 2018-10-27 22:49 Gloo 阅读(233) 评论(0) 推荐(0) 编辑
 
摘要: Request对象: 对象在我们写爬虫,爬取一页的数据需要重新发送一个请求的时候调用。这个类需要传递一些参数,其中比较常用的参数有: 1. :这个request对象发送请求的url。 2. :在下载器下载完相应的数据后执行的回调函数。 3. :请求的方法。默认为 方法,可以设置为其他方法。 4. : 阅读全文
posted @ 2018-10-27 22:40 Gloo 阅读(146) 评论(0) 推荐(0) 编辑
 
摘要: Scrapy中CrawSpider 回头看: 之前的代码中,我们有很大一部分时间在寻找下一页的url地址或者是内容的url地址或者是内容的url地址上面,这个过程能更简单一些么? 思路: 1. 从response中提取所有的a标签对应的url地址 2. 自动的构造自己requests请求,发送给引擎 阅读全文
posted @ 2018-10-27 22:39 Gloo 阅读(223) 评论(1) 推荐(0) 编辑