摘要:
cookie操作 爬取豆瓣个人主页 因为要进行登录操作,所以一定要使用post请求进行表单提交,那么就必须重写start_requests()方法;观察代码就可以发现,当登录成功之后再次请求个人主页,不再需要 刻意地处理cookie,那是因为scrapy已经帮我们省去了这样的操作:第一次请求返回的c 阅读全文
摘要:
之前我们一直使用的都是get请求,但是我们也并没有指定。那是因为,当引擎检测到start_urls里面的url时会自动触发事务,发起start_requests()请求,这个默认就是get请求。 所以需要重写这个方法。 不多说,直接看代码 阅读全文
摘要:
scrapy核心组件 引擎(ScrapyEngine) 用于整个系统的数据流处理,触发事务(框架的核心) 调度器(schedule) 用于接收引擎发送过来的请求,压入队列中,并在引擎再次请求的时候返回,可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列, 由它来决定下一个要抓取的网址是什么 阅读全文
摘要:
# -*- coding: utf-8 -*- import scrapy from qiubaiByPages.items import QiubaibypagesItem class QiubaiSpider(scrapy.Spider): name = 'qiubai' #allowed_domains = ['www.qiushibaike.com/text'] ... 阅读全文
摘要:
持久化存储的两种方式 1基于磁盘文件存储 基于终端指令 基于终端指令需要注意两点: # -*- coding: utf-8 -*- import scrapy class QiubaiSpider(scrapy.Spider): name = 'qiubai' #allowed_domains = 阅读全文
摘要:
这篇文章应该写在scrapy框架之前,在此作为补充 问题:如何对动态加载的页面数据进行爬取? 解决方式有两个: 1.selenium 2.phantomJs selenium 简介:三方库,可以实现让浏览器完成自动化的操作。 环境搭建 安装:pip install selenium 获取浏览器驱动程 阅读全文