念念不忘,必有回响!繁华似锦觅安宁,淡云流水度此生--------潇洒若梦&&浮生执铭
潇洒浮生
因为你 我愿意热爱整个世界
摘要: 分布式爬虫 a) 调度器无法共享 b) 管道无法共享 工具 scrapy-redis组件:专门为scrapy开发的一套组件。该组件可以让scrapy实现分布式。 a) 下载:pip install scrapy-redis 分布式爬取的流程 1)redis文件的配置 bind 127.0.0.1 进 阅读全文
posted @ 2018-11-28 22:02 潇洒浮生 阅读(488) 评论(0) 推荐(0) 编辑
摘要: CrawlSpider 问题:如果我们想要对某一个网站的全站数据进行爬取? 解决方案: CrawlSpider概念:CrawlSpider其实就是Spider的一个子类。CrawlSpider功能更加强大(链接提取器,规则解析器)。 代码流程: a) scrapy genspider –t craw 阅读全文
posted @ 2018-11-28 21:51 潇洒浮生 阅读(149) 评论(0) 推荐(0) 编辑
摘要: 应用场景 需要用到请求传参的地方:爬取的数据值不在同一个页面中。 示例 需求:将id97电影网站中电影详情数据进行爬取(名称,类型,导演,语言,片长) items.py 再配置好配置文件就ok,可以执行了。 阅读全文
posted @ 2018-11-28 21:38 潇洒浮生 阅读(139) 评论(0) 推荐(0) 编辑
摘要: cookie操作 爬取豆瓣个人主页 因为要进行登录操作,所以一定要使用post请求进行表单提交,那么就必须重写start_requests()方法;观察代码就可以发现,当登录成功之后再次请求个人主页,不再需要 刻意地处理cookie,那是因为scrapy已经帮我们省去了这样的操作:第一次请求返回的c 阅读全文
posted @ 2018-11-28 17:28 潇洒浮生 阅读(172) 评论(0) 推荐(0) 编辑
摘要: 之前我们一直使用的都是get请求,但是我们也并没有指定。那是因为,当引擎检测到start_urls里面的url时会自动触发事务,发起start_requests()请求,这个默认就是get请求。 所以需要重写这个方法。 不多说,直接看代码 阅读全文
posted @ 2018-11-28 16:14 潇洒浮生 阅读(277) 评论(0) 推荐(0) 编辑
摘要: scrapy核心组件 引擎(ScrapyEngine) 用于整个系统的数据流处理,触发事务(框架的核心) 调度器(schedule) 用于接收引擎发送过来的请求,压入队列中,并在引擎再次请求的时候返回,可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列, 由它来决定下一个要抓取的网址是什么 阅读全文
posted @ 2018-11-28 15:52 潇洒浮生 阅读(604) 评论(0) 推荐(0) 编辑
摘要: # -*- coding: utf-8 -*- import scrapy from qiubaiByPages.items import QiubaibypagesItem class QiubaiSpider(scrapy.Spider): name = 'qiubai' #allowed_domains = ['www.qiushibaike.com/text'] ... 阅读全文
posted @ 2018-11-28 15:37 潇洒浮生 阅读(939) 评论(0) 推荐(0) 编辑
摘要: 需求:将爬取到的数据值分别存储到本地磁盘、redis数据库、mysql数据。 配置文件中管道配置 阅读全文
posted @ 2018-11-28 15:33 潇洒浮生 阅读(114) 评论(0) 推荐(0) 编辑
摘要: 持久化存储的两种方式 1基于磁盘文件存储 基于终端指令 基于终端指令需要注意两点: # -*- coding: utf-8 -*- import scrapy class QiubaiSpider(scrapy.Spider): name = 'qiubai' #allowed_domains = 阅读全文
posted @ 2018-11-28 11:31 潇洒浮生 阅读(720) 评论(0) 推荐(0) 编辑
摘要: 这篇文章应该写在scrapy框架之前,在此作为补充 问题:如何对动态加载的页面数据进行爬取? 解决方式有两个: 1.selenium 2.phantomJs selenium 简介:三方库,可以实现让浏览器完成自动化的操作。 环境搭建 安装:pip install selenium 获取浏览器驱动程 阅读全文
posted @ 2018-11-28 10:42 潇洒浮生 阅读(553) 评论(0) 推荐(0) 编辑

levels of contents