摘要: 开发scrapy扩展 定义 扩展框架提供一个机制,使得你能将自定义功能绑定到Scrapy。 扩展只是正常的类,它们在Scrapy启动时被实例化、初始化 定义 扩展框架提供一个机制,使得你能将自定义功能绑定到Scrapy。 扩展只是正常的类,它们在Scrapy启动时被实例化、初始化 扩展框架提供一个机 阅读全文
posted @ 2018-05-23 16:34 前路~ 阅读(658) 评论(0) 推荐(0) 编辑
摘要: scrapy信号量 定义 Scrapy使用信号来通知事情发生。您可以在您的Scrapy项目中捕捉一些信号(使用 extension)来完成额外的工作或添加额外的功能,扩展Scrapy。 虽然信号提供了一些参数,不过处理函数不用接收所有的参数 - 信号分发机制(singal dispatching m 阅读全文
posted @ 2018-05-23 16:30 前路~ 阅读(373) 评论(0) 推荐(0) 编辑
摘要: Scrapy的数据收集功能 定义 Scrapy提供了方便的收集数据的机制。数据以key/value方式存储,值大多是计数值。 该机制叫做数据收集器(Stats Collector),可以通过 Crawler API 的属性 stats 来使用。 特点 无论数据收集(stats collection) 阅读全文
posted @ 2018-05-23 16:29 前路~ 阅读(760) 评论(0) 推荐(0) 编辑
摘要: 使用scrapy的telnet功能远程管理scrapy运行 用法 telnet <IP_ADDR> <PORT> 官方文档 官方文档 https://doc.scrapy.org/en/latest/topics/telnetconsole.html 简单使用 crawler the Scrapy 阅读全文
posted @ 2018-05-23 16:26 前路~ 阅读(1300) 评论(0) 推荐(0) 编辑
摘要: Scrapy去重原理 scrapy本身自带一个去重中间件 scrapy本身自带一个去重中间件 scrapy源码中可以找到一个dupefilters.py去重器 源码去重算法 # 将返回值放到集合set中,实现去重 def request_fingerprint(request, include_he 阅读全文
posted @ 2018-05-23 16:23 前路~ 阅读(2911) 评论(0) 推荐(0) 编辑
摘要: Scrapy爬虫暂停和重启 在当前项目下新建一个用于存储中间过程变量的目录 注意不同的spider不能共用一个目录 同一个spider每次运行时也必须使用新的目录 mkdir <spider_porject_path>/job_process 带参数的命令启动方式 1 scrapy crawl <s 阅读全文
posted @ 2018-05-23 16:22 前路~ 阅读(1112) 评论(0) 推荐(0) 编辑
摘要: Selenium浏览器自动化测试框架 简介 简介 Selenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。 支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome 阅读全文
posted @ 2018-05-23 12:39 前路~ 阅读(365) 评论(0) 推荐(0) 编辑