上一页 1 2 3 4 5 6 ··· 14 下一页
摘要: Scrapy的数据收集功能 定义 Scrapy提供了方便的收集数据的机制。数据以key/value方式存储,值大多是计数值。 该机制叫做数据收集器(Stats Collector),可以通过 Crawler API 的属性 stats 来使用。 特点 无论数据收集(stats collection) 阅读全文
posted @ 2018-05-23 16:29 前路~ 阅读(760) 评论(0) 推荐(0) 编辑
摘要: 使用scrapy的telnet功能远程管理scrapy运行 用法 telnet <IP_ADDR> <PORT> 官方文档 官方文档 https://doc.scrapy.org/en/latest/topics/telnetconsole.html 简单使用 crawler the Scrapy 阅读全文
posted @ 2018-05-23 16:26 前路~ 阅读(1299) 评论(0) 推荐(0) 编辑
摘要: Scrapy去重原理 scrapy本身自带一个去重中间件 scrapy本身自带一个去重中间件 scrapy源码中可以找到一个dupefilters.py去重器 源码去重算法 # 将返回值放到集合set中,实现去重 def request_fingerprint(request, include_he 阅读全文
posted @ 2018-05-23 16:23 前路~ 阅读(2911) 评论(0) 推荐(0) 编辑
摘要: Scrapy爬虫暂停和重启 在当前项目下新建一个用于存储中间过程变量的目录 注意不同的spider不能共用一个目录 同一个spider每次运行时也必须使用新的目录 mkdir <spider_porject_path>/job_process 带参数的命令启动方式 1 scrapy crawl <s 阅读全文
posted @ 2018-05-23 16:22 前路~ 阅读(1112) 评论(0) 推荐(0) 编辑
摘要: Selenium浏览器自动化测试框架 简介 简介 Selenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。 支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome 阅读全文
posted @ 2018-05-23 12:39 前路~ 阅读(365) 评论(0) 推荐(0) 编辑
摘要: 3种常见的方法 1. 在settings中配置禁用cookies 1 COOKIES_ENABLED = False 2. scrapy限速处理,scrapy为我们提供了扩展模块,它能动态的限制下载速度 # http://scrapy-chs.readthedocs.io/zh_CN/latest/ 阅读全文
posted @ 2018-05-22 16:41 前路~ 阅读(501) 评论(0) 推荐(0) 编辑
摘要: 3种实现方案 1. 编码实现 tesseract-ocr 谷歌开源的识别工具,自己实现代码编码,投入精力大,回馈低。且平台验证码更换周期短,编好的代码容易失效 2. 在线打码 在线平台提供,识别率90%以上 http://www.yunzhuan.com/ 3. 人工打码 效率低,准确率高 这里主要 阅读全文
posted @ 2018-05-22 16:38 前路~ 阅读(1290) 评论(0) 推荐(0) 编辑
摘要: 设置IP代理池及IP变换方案 方案一: 使用国内免费的IP代理 1 http://www.xicidaili.com # 创建一个tools文件夹,新建一个py文件,用于获取代理IP和PORT from scrapy.selector import Selector import MySQLdb i 阅读全文
posted @ 2018-05-22 15:45 前路~ 阅读(342) 评论(0) 推荐(0) 编辑
摘要: 随机替换请求头中的User-Agent 基于github开源项目,实现User-Agent的动态切换和管理 基于github开源项目,实现User-Agent的动态切换和管理 1 https://github.com/hellysmile/fake-useragent fake-useragent维 阅读全文
posted @ 2018-05-22 15:39 前路~ 阅读(248) 评论(0) 推荐(0) 编辑
摘要: Selector使用 使用背景 我需要使用类似spider项目中,response使用的xpath和css获取页面指定数据,但因为爬取页面较小我们不想创建一个spider项目时,就可以使用scrapy提供的Selector对象 使用代码 阅读全文
posted @ 2018-05-22 15:35 前路~ 阅读(572) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 14 下一页