摘要: 我们要爬取的网站为http://image.so.com/z?ch=photography,打开开发者工具,页面往下拉,观察到出现了如图所示Ajax请求, 其中list就是图片的详细信息,接着观察到每个Ajax请求的sn值会递增30,当sn为30时,返回前30张图片,当sn为60时,返回第31到60 阅读全文
posted @ 2018-11-16 21:46 东东欧尼酱 阅读(372) 评论(0) 推荐(0) 编辑
摘要: 这就是极验验证码,通过拖动滑块移动拼图来验证。我们观察到点击滑块时拼图才会出现,所以我们可以在点击滑块之前截取图像,点击滑块再截取一次图像,将前后两次图像做比较就可以找到图片改动的位置。获得位置后,我们需要模拟人类的操作将滑块移动到指定的位置。代码如下: 阅读全文
posted @ 2018-11-16 21:09 东东欧尼酱 阅读(886) 评论(0) 推荐(0) 编辑
摘要: Spider有以下属性: 起始URL列表。如果没有实现start_requests()方法,默认会从这个列表开始爬取。 Downloader Middleware即下载中间件,它是处于Scrapy的Request和Response之间的处理模块。Downloader的作用有两个:1.在Schedul 阅读全文
posted @ 2018-11-16 14:27 东东欧尼酱 阅读(908) 评论(0) 推荐(0) 编辑