2018 年 5月 22 日随笔档案 - 前路~

2018年5月22日

摘要： 3种常见的方法 1. 在settings中配置禁用cookies 1 COOKIES_ENABLED = False 2. scrapy限速处理，scrapy为我们提供了扩展模块，它能动态的限制下载速度 # http://scrapy-chs.readthedocs.io/zh_CN/latest/ 阅读全文

posted @ 2018-05-22 16:41 前路~ 阅读(501) 评论(0) 推荐(0) 编辑

Scrapy学习-14-验证码识别

摘要： 3种实现方案 1. 编码实现 tesseract-ocr 谷歌开源的识别工具，自己实现代码编码，投入精力大，回馈低。且平台验证码更换周期短，编好的代码容易失效 2. 在线打码在线平台提供，识别率90%以上 http://www.yunzhuan.com/ 3. 人工打码效率低，准确率高这里主要阅读全文

posted @ 2018-05-22 16:38 前路~ 阅读(1290) 评论(0) 推荐(0) 编辑

Scrapy学习-13-使用DownloaderMiddleware设置IP代理池及IP变换

摘要：设置IP代理池及IP变换方案方案一：使用国内免费的IP代理 1 http://www.xicidaili.com # 创建一个tools文件夹，新建一个py文件，用于获取代理IP和PORT from scrapy.selector import Selector import MySQLdb i 阅读全文

posted @ 2018-05-22 15:45 前路~ 阅读(342) 评论(0) 推荐(0) 编辑

Scrapy学习-12-使用DownloaderMiddleware随机修改User-Agent

摘要：随机替换请求头中的User-Agent 基于github开源项目，实现User-Agent的动态切换和管理基于github开源项目，实现User-Agent的动态切换和管理 1 https://github.com/hellysmile/fake-useragent fake-useragent维阅读全文

posted @ 2018-05-22 15:39 前路~ 阅读(248) 评论(0) 推荐(0) 编辑

Scrapy学习-11-Selector对象使用

摘要： Selector使用使用背景我需要使用类似spider项目中，response使用的xpath和css获取页面指定数据，但因为爬取页面较小我们不想创建一个spider项目时，就可以使用scrapy提供的Selector对象使用代码阅读全文

posted @ 2018-05-22 15:35 前路~ 阅读(572) 评论(0) 推荐(0) 编辑

陈乾

公告