2020年4月12日
摘要: 在爬虫已启动,就打开一个 chrom 浏览器,以后都用这一个浏览器来爬数据 1 在爬虫中创建 bro 对象 在 middlewares.py 中定义一个 class: spider中的代码: 下载中间件使用 把 selenium 集成到 scrapy 中主要改变的就是这两处地方 以上的在 scrap 阅读全文
posted @ 2020-04-12 19:43 Rannie` 阅读(312) 评论(0) 推荐(0) 编辑
摘要: [TOC] 介绍 原来 scrapy 的 Scheduler 维护的是本机的任务队列(存放 Request 对象及其回调函数等信息)+ 本机的去重队列(存放访问过的url地址) 所以实现分布式爬取的关键就是,找一台专门的主机上运行一个共享的队列比如 Redis, 然后重写 Scrapy 的 Sche 阅读全文
posted @ 2020-04-12 18:29 Rannie` 阅读(212) 评论(0) 推荐(0) 编辑
摘要: [TOC] 在开始介绍 scrapy 的去重之前,先想想我们是怎么对 requests 对去重的。 requests 只是下载器,本身并没有提供去重功能。所以我们需要自己去做。 很典型的做法是事先定义一个去重队列,判断抓取的 url 是否在其中,如 此时的集合是保存在内存中的,随着爬虫抓取内容变多, 阅读全文
posted @ 2020-04-12 17:54 Rannie` 阅读(364) 评论(0) 推荐(0) 编辑
去除动画
找回动画