scrapy学习笔记：项目中使用代理ip

　　做为一个爬虫，最头疼的问题就是你的ip被封，想要在Scrapy领域无限制畅游，做好伪装是第一步，于是乎，抓取代理IP成了很多教程的开始部分。这里我说一下代理scrapy中代理ip，仅供大家借鉴！

代理ip使用分为下面几个步骤：

1.从网上抓取代理ip（网上很容易搜到很多免费的ip可以供大家使用）

　　　2.验证ip的有效性（免费的ip并不都是那么好用的，所有要大家去验证是否可用socket）

　　　3.存储ip（有很多方式存储，可以存在文本文档中，也可以存在数据库中，为了方便使用我一般都存在数据库当中）

　　　4.scrapy 中使用代理ip

　　scrapy 中实现代理的途径有两种，Spider Middlewares 和 Downloader Middlewares . 他们都要实现各自的方法，我这里主要说一下Downloader Middlewares 中代理的使用。

在 Downloader Middlewares 中使用首先要重写process_request（）方法。主代码如下：

从你验证好的ip中取出来判断类型，然后将其加载request参数中循环使用。

验证ip我就不在这里讲了，有很多方法，我使用的是响应socket.

最后记得在settings 中设置代理使用的优先级，一定要比你的其他项目优先级高

设置完了，就可以和你之前的程序一起使用了.

posted @ 2016-07-15 19:00 做一个勤劳的孩子阅读(6848) 评论(1) 编辑收藏举报

刷新页面返回顶部

一点一滴