前路~ - 博客园

2018年5月23日

摘要： Scrapy的数据收集功能定义 Scrapy提供了方便的收集数据的机制。数据以key/value方式存储，值大多是计数值。该机制叫做数据收集器(Stats Collector)，可以通过 Crawler API 的属性 stats 来使用。特点无论数据收集(stats collection) 阅读全文

posted @ 2018-05-23 16:29 前路~ 阅读(760) 评论(0) 推荐(0) 编辑

Scrapy学习-19-远程管理telnet功能

摘要：使用scrapy的telnet功能远程管理scrapy运行用法 telnet <IP_ADDR> <PORT> 官方文档官方文档 https://doc.scrapy.org/en/latest/topics/telnetconsole.html 简单使用 crawler the Scrapy 阅读全文

posted @ 2018-05-23 16:26 前路~ 阅读(1299) 评论(0) 推荐(0) 编辑

Scrapy学习-18-去重原理

摘要： Scrapy去重原理 scrapy本身自带一个去重中间件 scrapy本身自带一个去重中间件 scrapy源码中可以找到一个dupefilters.py去重器源码去重算法 # 将返回值放到集合set中，实现去重 def request_fingerprint(request, include_he 阅读全文

posted @ 2018-05-23 16:23 前路~ 阅读(2911) 评论(0) 推荐(0) 编辑

Scrapy学习-17-暂停和重启

摘要： Scrapy爬虫暂停和重启在当前项目下新建一个用于存储中间过程变量的目录注意不同的spider不能共用一个目录同一个spider每次运行时也必须使用新的目录 mkdir <spider_porject_path>/job_process 带参数的命令启动方式 1 scrapy crawl <s 阅读全文

posted @ 2018-05-23 16:22 前路~ 阅读(1112) 评论(0) 推荐(0) 编辑

Scrapy学习-16-动态网页技术

摘要： Selenium浏览器自动化测试框架简介简介 Selenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。支持的浏览器包括IE（7, 8, 9, 10, 11），Mozilla Firefox，Safari，Google Chrome 阅读全文

posted @ 2018-05-23 12:39 前路~ 阅读(365) 评论(0) 推荐(0) 编辑

2018年5月22日

Scrapy学习-15-降低被识别为爬虫的方法

摘要： 3种常见的方法 1. 在settings中配置禁用cookies 1 COOKIES_ENABLED = False 2. scrapy限速处理，scrapy为我们提供了扩展模块，它能动态的限制下载速度 # http://scrapy-chs.readthedocs.io/zh_CN/latest/ 阅读全文

posted @ 2018-05-22 16:41 前路~ 阅读(501) 评论(0) 推荐(0) 编辑

Scrapy学习-14-验证码识别

摘要： 3种实现方案 1. 编码实现 tesseract-ocr 谷歌开源的识别工具，自己实现代码编码，投入精力大，回馈低。且平台验证码更换周期短，编好的代码容易失效 2. 在线打码在线平台提供，识别率90%以上 http://www.yunzhuan.com/ 3. 人工打码效率低，准确率高这里主要阅读全文

posted @ 2018-05-22 16:38 前路~ 阅读(1290) 评论(0) 推荐(0) 编辑

Scrapy学习-13-使用DownloaderMiddleware设置IP代理池及IP变换

摘要：设置IP代理池及IP变换方案方案一：使用国内免费的IP代理 1 http://www.xicidaili.com # 创建一个tools文件夹，新建一个py文件，用于获取代理IP和PORT from scrapy.selector import Selector import MySQLdb i 阅读全文

posted @ 2018-05-22 15:45 前路~ 阅读(342) 评论(0) 推荐(0) 编辑

Scrapy学习-12-使用DownloaderMiddleware随机修改User-Agent

摘要：随机替换请求头中的User-Agent 基于github开源项目，实现User-Agent的动态切换和管理基于github开源项目，实现User-Agent的动态切换和管理 1 https://github.com/hellysmile/fake-useragent fake-useragent维阅读全文

posted @ 2018-05-22 15:39 前路~ 阅读(248) 评论(0) 推荐(0) 编辑

Scrapy学习-11-Selector对象使用

摘要： Selector使用使用背景我需要使用类似spider项目中，response使用的xpath和css获取页面指定数据，但因为爬取页面较小我们不想创建一个spider项目时，就可以使用scrapy提供的Selector对象使用代码阅读全文

posted @ 2018-05-22 15:35 前路~ 阅读(572) 评论(0) 推荐(0) 编辑

陈乾

公告