潇洒浮生 - 博客园

2018年11月28日

摘要： cookie操作爬取豆瓣个人主页因为要进行登录操作，所以一定要使用post请求进行表单提交，那么就必须重写start_requests（）方法；观察代码就可以发现，当登录成功之后再次请求个人主页，不再需要刻意地处理cookie，那是因为scrapy已经帮我们省去了这样的操作：第一次请求返回的c 阅读全文

posted @ 2018-11-28 17:28 潇洒浮生阅读(173) 评论(0) 推荐(0) 编辑

发起post请求

摘要：之前我们一直使用的都是get请求，但是我们也并没有指定。那是因为，当引擎检测到start_urls里面的url时会自动触发事务，发起start_requests()请求，这个默认就是get请求。所以需要重写这个方法。不多说，直接看代码阅读全文

posted @ 2018-11-28 16:14 潇洒浮生阅读(278) 评论(0) 推荐(0) 编辑

scrapy核心组件

摘要： scrapy核心组件引擎（ScrapyEngine）用于整个系统的数据流处理，触发事务（框架的核心）调度器（schedule）用于接收引擎发送过来的请求，压入队列中，并在引擎再次请求的时候返回，可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么阅读全文

posted @ 2018-11-28 15:52 潇洒浮生阅读(607) 评论(0) 推荐(0) 编辑

爬取多个url页面数据--手动实现

摘要： # -*- coding: utf-8 -*- import scrapy from qiubaiByPages.items import QiubaibypagesItem class QiubaiSpider(scrapy.Spider): name = 'qiubai' #allowed_domains = ['www.qiushibaike.com/text'] ... 阅读全文

posted @ 2018-11-28 15:37 潇洒浮生阅读(941) 评论(0) 推荐(0) 编辑

scrapy之持久化存储

摘要：持久化存储的两种方式 1基于磁盘文件存储基于终端指令基于终端指令需要注意两点： # -*- coding: utf-8 -*- import scrapy class QiubaiSpider(scrapy.Spider): name = 'qiubai' #allowed_domains = 阅读全文

posted @ 2018-11-28 11:31 潇洒浮生阅读(722) 评论(0) 推荐(0) 编辑

selenium + phantomJs

摘要：这篇文章应该写在scrapy框架之前，在此作为补充问题：如何对动态加载的页面数据进行爬取？解决方式有两个： 1.selenium 2.phantomJs selenium 简介：三方库，可以实现让浏览器完成自动化的操作。环境搭建安装：pip install selenium 获取浏览器驱动程阅读全文

posted @ 2018-11-28 10:42 潇洒浮生阅读(554) 评论(0) 推荐(0) 编辑

2018年11月27日

scrapy框架简介和基础使用

摘要：概念为了爬取网站数据而编写的一款应用框架，出名，强大。所谓的框架其实就是一个集成了相应的功能且具有很强通用性的项目模板。（高性能的异步下载，解析，持久化……）安装 pip install 下载好的框架.whl 3.pip install pywin32 4.pip install scrapy 阅读全文

posted @ 2018-11-27 10:43 潇洒浮生阅读(160) 评论(0) 推荐(0) 编辑

2018年11月26日

校验验证码实现登录验证

摘要：验证码处理方式 1.手动处理 2.云打码平台自动识别验证码代码实现阅读全文

posted @ 2018-11-26 21:09 潇洒浮生阅读(478) 评论(0) 推荐(0) 编辑

2018年11月22日

beautifulsoup解析

摘要： beautifulsoup解析 python独有 1.导包 2.创建Beautiful对象：如果html文档来源于本地：Beautiful('open('本地html文件)',lxml) 如果html文档来源于网络：Beautiful（'网络请求到的页面数据','lxml'） 3.使用方法和属性：阅读全文

posted @ 2018-11-22 16:18 潇洒浮生阅读(299) 评论(0) 推荐(0) 编辑

xpath

摘要： xpath知识储备 -1.下载：pip install lxml -2.导包：from lxml import etree -3.创建etree对象进行指定对象的解析 -本地：etree=etree.parse('本地文件路径') etree.xpath('xpath表达式') -网络：etree= 阅读全文

posted @ 2018-11-22 16:09 潇洒浮生阅读(135) 评论(0) 推荐(0) 编辑