2018 年 11月 28 日随笔档案 - 潇洒浮生

2018年11月28日

摘要：分布式爬虫 a) 调度器无法共享 b) 管道无法共享工具 scrapy-redis组件:专门为scrapy开发的一套组件。该组件可以让scrapy实现分布式。 a) 下载：pip install scrapy-redis 分布式爬取的流程 1）redis文件的配置 bind 127.0.0.1 进阅读全文

posted @ 2018-11-28 22:02 潇洒浮生阅读(488) 评论(0) 推荐(0) 编辑

CrawlSpider

摘要： CrawlSpider 问题：如果我们想要对某一个网站的全站数据进行爬取？解决方案： CrawlSpider概念：CrawlSpider其实就是Spider的一个子类。CrawlSpider功能更加强大（链接提取器，规则解析器）。代码流程： a) scrapy genspider –t craw 阅读全文

posted @ 2018-11-28 21:51 潇洒浮生阅读(149) 评论(0) 推荐(0) 编辑

请求传参

摘要：应用场景需要用到请求传参的地方：爬取的数据值不在同一个页面中。示例需求：将id97电影网站中电影详情数据进行爬取（名称，类型，导演，语言，片长） items.py 再配置好配置文件就ok，可以执行了。阅读全文

posted @ 2018-11-28 21:38 潇洒浮生阅读(139) 评论(0) 推荐(0) 编辑

cookie操作和代理

摘要： cookie操作爬取豆瓣个人主页因为要进行登录操作，所以一定要使用post请求进行表单提交，那么就必须重写start_requests（）方法；观察代码就可以发现，当登录成功之后再次请求个人主页，不再需要刻意地处理cookie，那是因为scrapy已经帮我们省去了这样的操作：第一次请求返回的c 阅读全文

posted @ 2018-11-28 17:28 潇洒浮生阅读(172) 评论(0) 推荐(0) 编辑

发起post请求

摘要：之前我们一直使用的都是get请求，但是我们也并没有指定。那是因为，当引擎检测到start_urls里面的url时会自动触发事务，发起start_requests()请求，这个默认就是get请求。所以需要重写这个方法。不多说，直接看代码阅读全文

posted @ 2018-11-28 16:14 潇洒浮生阅读(277) 评论(0) 推荐(0) 编辑

scrapy核心组件

摘要： scrapy核心组件引擎（ScrapyEngine）用于整个系统的数据流处理，触发事务（框架的核心）调度器（schedule）用于接收引擎发送过来的请求，压入队列中，并在引擎再次请求的时候返回，可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么阅读全文

posted @ 2018-11-28 15:52 潇洒浮生阅读(604) 评论(0) 推荐(0) 编辑

爬取多个url页面数据--手动实现

摘要： # -*- coding: utf-8 -*- import scrapy from qiubaiByPages.items import QiubaibypagesItem class QiubaiSpider(scrapy.Spider): name = 'qiubai' #allowed_domains = ['www.qiushibaike.com/text'] ... 阅读全文

posted @ 2018-11-28 15:37 潇洒浮生阅读(939) 评论(0) 推荐(0) 编辑

爬虫之管道高级

摘要：需求：将爬取到的数据值分别存储到本地磁盘、redis数据库、mysql数据。配置文件中管道配置阅读全文

posted @ 2018-11-28 15:33 潇洒浮生阅读(114) 评论(0) 推荐(0) 编辑

scrapy之持久化存储

摘要：持久化存储的两种方式 1基于磁盘文件存储基于终端指令基于终端指令需要注意两点： # -*- coding: utf-8 -*- import scrapy class QiubaiSpider(scrapy.Spider): name = 'qiubai' #allowed_domains = 阅读全文

posted @ 2018-11-28 11:31 潇洒浮生阅读(720) 评论(0) 推荐(0) 编辑

selenium + phantomJs

摘要：这篇文章应该写在scrapy框架之前，在此作为补充问题：如何对动态加载的页面数据进行爬取？解决方式有两个： 1.selenium 2.phantomJs selenium 简介：三方库，可以实现让浏览器完成自动化的操作。环境搭建安装：pip install selenium 获取浏览器驱动程阅读全文

posted @ 2018-11-28 10:42 潇洒浮生阅读(553) 评论(0) 推荐(0) 编辑