2019 年 2月 10 日随笔档案 - 羊驼之歌

2019年2月10日

摘要：配置文件基本配置并发与延迟智能限速/自动节流介绍设置目标 1、比使用默认的下载延迟对站点更好 2、自动调整scrapy到最佳的爬取速度，所以用户无需自己调整下载延迟到最佳状态。用户只需要定义允许最大并发的请求，剩下的事情由该扩展组件自动完成如何实现在Scrapy中，下载延迟是通过计算建阅读全文

posted @ 2019-02-10 03:22 羊驼之歌阅读(432) 评论(0) 推荐(0) 编辑

Scrapy 框架中间件，信号，定制命令

摘要：中间件下载器中间件写中间件配置文件执行顺序梳理应用场景 - 随机 User-Agent 开源的组件导入配置文件中设置选择方式根据配置文件中的选择方式设置模式应用场景 - IP代理写个脚本完成对西刺代理IP的爬虫并存入数据库设置中间件来调用脚本设置代理 IP 爬虫中间件写中阅读全文

posted @ 2019-02-10 03:01 羊驼之歌阅读(478) 评论(0) 推荐(0) 编辑

Scrapy 框架，持久化文件相关

摘要：持久化相关相关文件 items.py 数据结构模板文件。定义数据属性。 pipelines.py 管道文件。接收数据（items），进行持久化操作。持久化流程 ▨ 爬虫文件爬取到数据后，将数据封装到 items 对象 ▨ items.py 用 yield 关键字将 items对象提交给 pip 阅读全文

posted @ 2019-02-10 02:10 羊驼之歌阅读(192) 评论(0) 推荐(0) 编辑

爬虫 BeatifulSoup 模块

摘要： BeatifulSoup 模块介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库安装解析器下载解析器下表列出了主要的解析器,以及它们的优缺点, 官网推荐使用 lxml 作为解析器,因为效率更高. 在Python2.7.3之前的版本和Python3 阅读全文

posted @ 2019-02-10 01:27 羊驼之歌阅读(404) 评论(0) 推荐(0) 编辑

爬虫，基于request，bs4 的简单实例整合

摘要：简单爬虫示例爬取抽屉，以及自动登陆抽屉点赞先查看首页拿到cookie，然后登陆要携带首页拿到的 cookie 才可以通过验证爬取拉勾网请求头中存在自定义的验证字段，要想办法拿到才可以正确爬取,以及 Referer 的使用自动登陆GitHub scrf_token 的验证总结请求头：特阅读全文

posted @ 2019-02-10 01:06 羊驼之歌阅读(773) 评论(0) 推荐(0) 编辑

坨之歌

The Bird of the Termes is my name, eating my wings to make me tame.

公告