念念不忘,必有回响!繁华似锦觅安宁,淡云流水度此生--------潇洒若梦&&浮生执铭
潇洒浮生
因为你 我愿意热爱整个世界
摘要: cookie操作 爬取豆瓣个人主页 因为要进行登录操作,所以一定要使用post请求进行表单提交,那么就必须重写start_requests()方法;观察代码就可以发现,当登录成功之后再次请求个人主页,不再需要 刻意地处理cookie,那是因为scrapy已经帮我们省去了这样的操作:第一次请求返回的c 阅读全文
posted @ 2018-11-28 17:28 潇洒浮生 阅读(169) 评论(0) 推荐(0) 编辑
摘要: 之前我们一直使用的都是get请求,但是我们也并没有指定。那是因为,当引擎检测到start_urls里面的url时会自动触发事务,发起start_requests()请求,这个默认就是get请求。 所以需要重写这个方法。 不多说,直接看代码 阅读全文
posted @ 2018-11-28 16:14 潇洒浮生 阅读(275) 评论(0) 推荐(0) 编辑
摘要: scrapy核心组件 引擎(ScrapyEngine) 用于整个系统的数据流处理,触发事务(框架的核心) 调度器(schedule) 用于接收引擎发送过来的请求,压入队列中,并在引擎再次请求的时候返回,可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列, 由它来决定下一个要抓取的网址是什么 阅读全文
posted @ 2018-11-28 15:52 潇洒浮生 阅读(600) 评论(0) 推荐(0) 编辑
摘要: # -*- coding: utf-8 -*- import scrapy from qiubaiByPages.items import QiubaibypagesItem class QiubaiSpider(scrapy.Spider): name = 'qiubai' #allowed_domains = ['www.qiushibaike.com/text'] ... 阅读全文
posted @ 2018-11-28 15:37 潇洒浮生 阅读(936) 评论(0) 推荐(0) 编辑
摘要: 持久化存储的两种方式 1基于磁盘文件存储 基于终端指令 基于终端指令需要注意两点: # -*- coding: utf-8 -*- import scrapy class QiubaiSpider(scrapy.Spider): name = 'qiubai' #allowed_domains = 阅读全文
posted @ 2018-11-28 11:31 潇洒浮生 阅读(713) 评论(0) 推荐(0) 编辑
摘要: 这篇文章应该写在scrapy框架之前,在此作为补充 问题:如何对动态加载的页面数据进行爬取? 解决方式有两个: 1.selenium 2.phantomJs selenium 简介:三方库,可以实现让浏览器完成自动化的操作。 环境搭建 安装:pip install selenium 获取浏览器驱动程 阅读全文
posted @ 2018-11-28 10:42 潇洒浮生 阅读(549) 评论(0) 推荐(0) 编辑
摘要: 概念 为了爬取网站数据而编写的一款应用框架,出名,强大。所谓的框架其实就是一个集成了相应的功能且具有很强通用性的项目模板。(高性能的异步下载,解析,持久化……) 安装 pip install 下载好的框架.whl 3.pip install pywin32 4.pip install scrapy 阅读全文
posted @ 2018-11-27 10:43 潇洒浮生 阅读(155) 评论(0) 推荐(0) 编辑
摘要: 验证码处理 方式 1.手动处理 2.云打码平台自动识别验证码 代码实现 阅读全文
posted @ 2018-11-26 21:09 潇洒浮生 阅读(475) 评论(0) 推荐(0) 编辑
摘要: beautifulsoup解析 python独有 1.导包 2.创建Beautiful对象: 如果html文档来源于本地:Beautiful('open('本地html文件)',lxml) 如果html文档来源于网络:Beautiful('网络请求到的页面数据','lxml') 3.使用方法和属性: 阅读全文
posted @ 2018-11-22 16:18 潇洒浮生 阅读(292) 评论(0) 推荐(0) 编辑
摘要: xpath知识储备 -1.下载:pip install lxml -2.导包:from lxml import etree -3.创建etree对象进行指定对象的解析 -本地:etree=etree.parse('本地文件路径') etree.xpath('xpath表达式') -网络:etree= 阅读全文
posted @ 2018-11-22 16:09 潇洒浮生 阅读(128) 评论(0) 推荐(0) 编辑

levels of contents