2018 年 5月 23 日随笔档案 - 前路~

2018年5月23日

摘要：开发scrapy扩展定义扩展框架提供一个机制，使得你能将自定义功能绑定到Scrapy。扩展只是正常的类，它们在Scrapy启动时被实例化、初始化定义扩展框架提供一个机制，使得你能将自定义功能绑定到Scrapy。扩展只是正常的类，它们在Scrapy启动时被实例化、初始化扩展框架提供一个机阅读全文

posted @ 2018-05-23 16:34 前路~ 阅读(658) 评论(0) 推荐(0) 编辑

Scrapy学习-21-信号量

摘要： scrapy信号量定义 Scrapy使用信号来通知事情发生。您可以在您的Scrapy项目中捕捉一些信号(使用 extension)来完成额外的工作或添加额外的功能，扩展Scrapy。虽然信号提供了一些参数，不过处理函数不用接收所有的参数 - 信号分发机制(singal dispatching m 阅读全文

posted @ 2018-05-23 16:30 前路~ 阅读(373) 评论(0) 推荐(0) 编辑

Scrapy学习-20-数据收集

摘要： Scrapy的数据收集功能定义 Scrapy提供了方便的收集数据的机制。数据以key/value方式存储，值大多是计数值。该机制叫做数据收集器(Stats Collector)，可以通过 Crawler API 的属性 stats 来使用。特点无论数据收集(stats collection) 阅读全文

posted @ 2018-05-23 16:29 前路~ 阅读(760) 评论(0) 推荐(0) 编辑

Scrapy学习-19-远程管理telnet功能

摘要：使用scrapy的telnet功能远程管理scrapy运行用法 telnet <IP_ADDR> <PORT> 官方文档官方文档 https://doc.scrapy.org/en/latest/topics/telnetconsole.html 简单使用 crawler the Scrapy 阅读全文

posted @ 2018-05-23 16:26 前路~ 阅读(1300) 评论(0) 推荐(0) 编辑

Scrapy学习-18-去重原理

摘要： Scrapy去重原理 scrapy本身自带一个去重中间件 scrapy本身自带一个去重中间件 scrapy源码中可以找到一个dupefilters.py去重器源码去重算法 # 将返回值放到集合set中，实现去重 def request_fingerprint(request, include_he 阅读全文

posted @ 2018-05-23 16:23 前路~ 阅读(2911) 评论(0) 推荐(0) 编辑

Scrapy学习-17-暂停和重启

摘要： Scrapy爬虫暂停和重启在当前项目下新建一个用于存储中间过程变量的目录注意不同的spider不能共用一个目录同一个spider每次运行时也必须使用新的目录 mkdir <spider_porject_path>/job_process 带参数的命令启动方式 1 scrapy crawl <s 阅读全文

posted @ 2018-05-23 16:22 前路~ 阅读(1112) 评论(0) 推荐(0) 编辑

Scrapy学习-16-动态网页技术

摘要： Selenium浏览器自动化测试框架简介简介 Selenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。支持的浏览器包括IE（7, 8, 9, 10, 11），Mozilla Firefox，Safari，Google Chrome 阅读全文

posted @ 2018-05-23 12:39 前路~ 阅读(365) 评论(0) 推荐(0) 编辑

陈乾

公告