疾风_lu - 博客园

2018年6月15日

摘要：（1）、前言 Scrapy框架为文件和图片的下载专门提供了两个Item Pipeline 它们分别是： FilePipeline ImagesPipeline （2）、使用Scrapy内置的下载方法的好处 1、可以有效避免重复下载 2、方便指定下载路径 3、方便格式转换，例如可以有效的将图片转换为p 阅读全文

posted @ 2018-06-15 17:36 疾风_lu 阅读(2230) 评论(2) 推荐(1)

2018年6月13日

爬虫实战篇---使用Scrapy框架进行模拟登录(包括借助阿里云服务自动识别验证码)

摘要：（1）、前言原理分析：我们编写代码模拟向网站发出登录请求，也就是提交包含登录信息的表单（用户名、密码等）。实现方式：当我们想在请求数据时发送post请求，这时候需要借助Request的子类FormRequest来实现，如果想进一步在爬虫一开始时就发送post请求，那么我们需要重写start_re 阅读全文

posted @ 2018-06-13 23:22 疾风_lu 阅读(8398) 评论(4) 推荐(1)

2018年6月12日

Scrapy爬虫框架---CrawlSpider类

摘要：（1）、简介在糗事百科爬虫中我们的爬虫是继承scrapy.Spider类的，这也是基本的scrapy框架爬虫，在这个爬虫中我们自己在解析完整个页面后再获取下一页的url,然后重新发送了一个请求，而使用CrawlsSpider类可以帮助我们对url提出条件，只要满足这个条件，都进行爬取，CrawlS 阅读全文

posted @ 2018-06-12 14:21 疾风_lu 阅读(1370) 评论(1) 推荐(0)

2018年6月11日

爬虫实战篇---糗事百科爬虫(scrapy框架)

摘要：前言：目标确定（1）、创建项目 scrapy startproject qsbk （2）、技术路线 scrapy框架的使用（3）、创建爬虫 scrapy genspider spider qiushibaike.com （爬虫名不能与项目名重名）（3）、实战改写settings.py 设置请阅读全文

posted @ 2018-06-11 23:19 疾风_lu 阅读(1317) 评论(0) 推荐(0)

2018年6月9日

爬虫实战篇---12306抢票爬虫

摘要：（1）、前言（此代码经过我的实测具有较强的实用型)每逢佳节，大家对于回家抢票这件事是不是特别头疼呢？今天我在网上发现了这个代码，通过一天的学习，与大家分析下，大家可以直接拿来进行12306抢票，也可以进行优化，进行诸如演唱会的抢票，等等。该代码主要使用了模拟浏览器方式而并没有采用分析请求。（2）阅读全文

posted @ 2018-06-09 18:58 疾风_lu 阅读(20912) 评论(5) 推荐(6)

2018年6月7日

爬虫知识储备篇---分析http请求

摘要：（1）、为何需要进行HTTP请求分析答：方便我们编写的爬虫精准定位爬取目标（2）、知识储备 1、什么是抓包？抓包：抓取客户端与服务器之间进行通信时产生的数据包 2、了解抓包工具:chrome下的开发者模式，使用F12即可打开功能结构分析：（参考文档：http://www.css88.com/ 阅读全文

posted @ 2018-06-07 09:46 疾风_lu 阅读(1797) 评论(0) 推荐(3)

2018年6月1日

爬虫实战篇---数据入库之去重与数据库

摘要：（1）、数据去重简介 1、数据去重：指在一个数字文件集合中，找出重复的数据并将其删除，只保留唯一的数据单元的过程。 2、分类： url去重：直接筛选掉重复的url 数据库去重：利用数据库的特性删除重复的数据 3、图解 4、为何需要进行url去重？运行爬虫时，我们不需要一个网站被下载多次，这会导致c 阅读全文

posted @ 2018-06-01 23:53 疾风_lu 阅读(10118) 评论(0) 推荐(2)

2018年5月31日

爬虫实战篇（模拟登录）---我们以模拟去哪儿网为例

摘要：（1）、登录实质互联网上的部分网站需要登录后方能访问，当我们打开网页并登录，就会在客户端生成Cookies（相当于个人身份证）信息，Cookies中包含了SessionId信息，登录后的请求都会带上Cookies发送给服务器，服务器会根据Cookies判断出对应的SessionID，进而找到会话，阅读全文

posted @ 2018-05-31 11:18 疾风_lu 阅读(8011) 评论(5) 推荐(0)

2018年5月30日

requests库详解

摘要： 1、requests库简介:http://docs.python-requests.org/zh_CN/latest/user/quickstart.html(官网) What is requests? 答：基于urllib库的简单易用的http库 2、安装 pip3 install request 阅读全文

posted @ 2018-05-30 20:08 疾风_lu 阅读(1006) 评论(0) 推荐(0)

2018年5月29日

爬取拉钩网职位信息写入mongodb数据库（小白学爬虫--实战篇1）

摘要：（1）、环境准备 requests + pymongo 库（2）、页面分析首先登录拉钩并输入关键字：爬虫工程师我们可以发现这些数据都是js加载的接着打开chrome的开发者工具选项并勾选XHR 我们发现我们需要的信息包含在result中我们通过观察发现该请求为post请求最后我们需要模拟阅读全文

posted @ 2018-05-29 22:56 疾风_lu 阅读(1272) 评论(0) 推荐(0)

公告