快乐糖果屋 - 博客园

三十三 Python分布式爬虫打造搜索引擎Scrapy精讲—数据收集(Stats Collection)

摘要： Scrapy提供了方便的收集数据的机制。数据以key/value方式存储，值大多是计数值。该机制叫做数据收集器(Stats Collector)，可以通过 Crawler API 的属性 stats 来使用无论数据收集(stats collection)开启或者关闭，数据收集器永远都是可用的。因阅读全文

posted @ 2018-01-03 11:08 快乐糖果屋阅读(367) 评论(0) 推荐(0) 编辑

三十二 Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy的暂停与重启

摘要： scrapy的每一个爬虫，暂停时可以记录暂停状态以及爬取了哪些url，重启时可以从暂停状态开始爬取过的URL不在爬取实现暂停与重启记录状态 1、首先cd进入到scrapy项目里 2、在scrapy项目里创建保存记录信息的文件夹 3、执行命令： scrapy crawl 爬虫名称 -s JOBDIR 阅读全文

posted @ 2018-01-03 11:07 快乐糖果屋阅读(1527) 评论(0) 推荐(0) 编辑

三十一 Python分布式爬虫打造搜索引擎Scrapy精讲—chrome谷歌浏览器无界面运行、scrapy-splash、splinter

摘要： 1、chrome谷歌浏览器无界面运行 chrome谷歌浏览器无界面运行，主要运行在Linux系统，windows系统下不支持 chrome谷歌浏览器无界面运行需要一个模块，pyvirtualdisplay模块需要先安装pyvirtualdisplay模块 Display(visible=0, si 阅读全文

posted @ 2018-01-03 11:06 快乐糖果屋阅读(2301) 评论(0) 推荐(0) 编辑

三十 Python分布式爬虫打造搜索引擎Scrapy精讲—将selenium操作谷歌浏览器集成到scrapy中

摘要： 1、爬虫文件 dispatcher.connect()信号分发器，第一个参数信号触发函数，第二个参数是触发信号，signals.spider_closed是爬虫结束信号 2、middlewares.py中间件文件 3、settings.py配置文件注册中间件阅读全文

posted @ 2018-01-03 11:05 快乐糖果屋阅读(2344) 评论(0) 推荐(0) 编辑

二十九 Python分布式爬虫打造搜索引擎Scrapy精讲—selenium模块是一个python操作浏览器软件的一个模块，可以实现js动态网页请求

摘要： selenium模块 selenium模块为第三方模块需要安装，selenium模块是一个操作各种浏览器对应软件的api接口模块 selenium模块是一个操作各种浏览器对应软件的api接口模块，所以还得需要下载对应浏览器的操作软件操作原理是：selenium模块操作浏览器操作软件，浏览器操作软件阅读全文

posted @ 2018-01-03 11:04 快乐糖果屋阅读(645) 评论(0) 推荐(0) 编辑

二十八 Python分布式爬虫打造搜索引擎Scrapy精讲—cookie禁用、自动限速、自定义spider的settings，对抗反爬机制

摘要： cookie禁用就是在Scrapy的配置文件settings.py里禁用掉cookie禁用，可以防止被通过cookie禁用识别到是爬虫，注意，只适用于不需要登录的网页，cookie禁用后是无法登录的 settings.py里禁用掉cookie禁用 COOKIES_ENABLED = False 禁阅读全文

posted @ 2018-01-03 11:02 快乐糖果屋阅读(470) 评论(0) 推荐(0) 编辑

二十七 Python分布式爬虫打造搜索引擎Scrapy精讲—通过自定义中间件全局随机更换代理IP

摘要：设置代理ip只需要，自定义一个中间件，重写process_request方法， request.meta['proxy'] = "http://185.82.203.146:1080" 设置代理IP 中间件，注意将中间件注册到配置文件里去随机数据库获取IP 数据库模块文件阅读全文

posted @ 2018-01-03 11:01 快乐糖果屋阅读(2185) 评论(1) 推荐(0) 编辑

二十六 Python分布式爬虫打造搜索引擎Scrapy精讲—通过downloadmiddleware中间件全局随机更换user-agent浏览器用户代理

摘要： downloadmiddleware介绍中间件是一个框架，可以连接到请求/响应处理中。这是一种很轻的、低层次的系统，可以改变Scrapy的请求和回应。也就是在Requests请求和Response响应之间的中间件，可以全局的修改Requests请求和Response响应 UserAgentMiddl 阅读全文

posted @ 2018-01-03 11:00 快乐糖果屋阅读(386) 评论(0) 推荐(1) 编辑

二十五 Python分布式爬虫打造搜索引擎Scrapy精讲—Requests请求和Response响应介绍

摘要： Requests请求 Requests请求就是我们在爬虫文件写的Requests()方法，也就是提交一个请求地址，Requests请求是我们自定义的 Requests()方法提交一个请求参数： url= 字符串类型url地址 callback= 回调函数名称 method= 字符串类型请求方式，如阅读全文

posted @ 2018-01-03 10:58 快乐糖果屋阅读(285) 评论(0) 推荐(0) 编辑

二十四 Python分布式爬虫打造搜索引擎Scrapy精讲—爬虫和反爬的对抗过程以及策略—scrapy架构源码分析图

摘要： 1、基本概念 2、反爬虫的目的 3、爬虫和反爬的对抗过程以及策略 scrapy架构源码分析图阅读全文

posted @ 2018-01-03 10:57 快乐糖果屋阅读(466) 评论(0) 推荐(0) 编辑