TOP
摘要: 配置文件 基本配置 并发与延迟 智能限速/自动节流 介绍 设置目标 1、比使用默认的下载延迟对站点更好 2、自动调整scrapy到最佳的爬取速度,所以用户无需自己调整下载延迟到最佳状态。用户只需要定义允许最大并发的请求,剩下的事情由该扩展组件自动完成 如何实现 在Scrapy中,下载延迟是通过计算建 阅读全文
posted @ 2019-02-10 03:22 羊驼之歌 阅读(432) 评论(0) 推荐(0) 编辑
摘要: 中间件 下载器中间件 写中间件 配置文件 执行顺序梳理 应用场景 - 随机 User-Agent 开源的组件 导入 配置文件中设置选择方式 根据配置文件中的选择方式设置模式 应用场景 - IP代理 写个脚本完成对 西刺代理IP的爬虫 并存入数据库 设置中间件来调用脚本设置代理 IP 爬虫中间件 写中 阅读全文
posted @ 2019-02-10 03:01 羊驼之歌 阅读(478) 评论(0) 推荐(0) 编辑
摘要: 持久化相关 相关文件 items.py 数据结构模板文件。定义数据属性。 pipelines.py 管道文件。接收数据(items),进行持久化操作。 持久化流程 ▨ 爬虫文件爬取到数据后,将数据封装到 items 对象 ▨ items.py 用 yield 关键字将 items对象 提交给 pip 阅读全文
posted @ 2019-02-10 02:10 羊驼之歌 阅读(192) 评论(0) 推荐(0) 编辑
摘要: BeatifulSoup 模块 介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库 安装 解析器下载 解析器 下表列出了主要的解析器,以及它们的优缺点, 官网推荐使用 lxml 作为解析器,因为效率更高. 在Python2.7.3之前的版本和Python3 阅读全文
posted @ 2019-02-10 01:27 羊驼之歌 阅读(404) 评论(0) 推荐(0) 编辑
摘要: 简单爬虫示例 爬取抽屉,以及自动登陆抽屉点赞 先查看首页拿到cookie,然后登陆要携带首页拿到的 cookie 才可以通过验证 爬取拉勾网 请求头中存在自定义的验证字段,要想办法拿到才可以正确爬取,以及 Referer 的使用 自动登陆GitHub scrf_token 的验证 总结 请求头: 特 阅读全文
posted @ 2019-02-10 01:06 羊驼之歌 阅读(773) 评论(0) 推荐(0) 编辑