2018年6月15日
摘要: (1)、前言 Scrapy框架为文件和图片的下载专门提供了两个Item Pipeline 它们分别是: FilePipeline ImagesPipeline (2)、使用Scrapy内置的下载方法的好处 1、可以有效避免重复下载 2、方便指定下载路径 3、方便格式转换,例如可以有效的将图片转换为p 阅读全文
posted @ 2018-06-15 17:36 疾风_lu 阅读(2133) 评论(2) 推荐(1) 编辑
  2018年6月13日
摘要: (1)、前言 原理分析:我们编写代码模拟向网站发出登录请求,也就是提交包含登录信息的表单(用户名、密码等)。 实现方式:当我们想在请求数据时发送post请求,这时候需要借助Request的子类FormRequest来实现,如果想进一步在爬虫一开始时就发送post请求,那么我们需要重写start_re 阅读全文
posted @ 2018-06-13 23:22 疾风_lu 阅读(8231) 评论(4) 推荐(1) 编辑
  2018年6月12日
摘要: (1)、简介 在糗事百科爬虫中我们的爬虫是继承scrapy.Spider类的,这也是基本的scrapy框架爬虫,在这个爬虫中我们自己在解析完整个页面后再获取下一页的url,然后重新发送了一个请求,而使用CrawlsSpider类可以帮助我们对url提出条件,只要满足这个条件,都进行爬取,CrawlS 阅读全文
posted @ 2018-06-12 14:21 疾风_lu 阅读(1347) 评论(1) 推荐(0) 编辑
  2018年6月11日
摘要: 前言:目标确定 (1)、创建项目 scrapy startproject qsbk (2)、技术路线 scrapy框架的使用 (3)、创建爬虫 scrapy genspider spider qiushibaike.com (爬虫名不能与项目名重名) (3)、实战 改写settings.py 设置请 阅读全文
posted @ 2018-06-11 23:19 疾风_lu 阅读(1308) 评论(0) 推荐(0) 编辑
  2018年6月9日
摘要: (1)、前言 (此代码经过我的实测具有较强的实用型)每逢佳节,大家对于回家抢票这件事是不是特别头疼呢?今天我在网上发现了这个代码,通过一天的学习,与大家分析下,大家可以直接拿来进行12306抢票,也可以进行优化,进行诸如演唱会的抢票,等等。该代码主要使用了模拟浏览器方式而并没有采用分析请求。 (2) 阅读全文
posted @ 2018-06-09 18:58 疾风_lu 阅读(20574) 评论(5) 推荐(6) 编辑
  2018年6月7日
摘要: (1)、为何需要进行HTTP请求分析 答:方便我们编写的爬虫精准定位爬取目标 (2)、知识储备 1、什么是抓包? 抓包:抓取客户端与服务器之间进行通信时产生的数据包 2、了解抓包工具:chrome下的开发者模式,使用F12即可打开 功能结构分析:(参考文档:http://www.css88.com/ 阅读全文
posted @ 2018-06-07 09:46 疾风_lu 阅读(1740) 评论(0) 推荐(3) 编辑
  2018年6月1日
摘要: (1)、数据去重简介 1、数据去重:指在一个数字文件集合中,找出重复的数据并将其删除,只保留唯一的数据单元的过程。 2、分类: url去重:直接筛选掉重复的url 数据库去重:利用数据库的特性删除重复的数据 3、图解 4、为何需要进行url去重? 运行爬虫时,我们不需要一个网站被下载多次,这会导致c 阅读全文
posted @ 2018-06-01 23:53 疾风_lu 阅读(10005) 评论(0) 推荐(2) 编辑
  2018年5月31日
摘要: (1)、登录实质 互联网上的部分网站需要登录后方能访问,当我们打开网页并登录,就会在客户端生成Cookies(相当于个人身份证)信息,Cookies中包含了SessionId信息,登录后的请求都会带上Cookies发送给服务器,服务器会根据Cookies判断出对应的SessionID,进而找到会话, 阅读全文
posted @ 2018-05-31 11:18 疾风_lu 阅读(7839) 评论(5) 推荐(0) 编辑
  2018年5月30日
摘要: 1、requests库简介:http://docs.python-requests.org/zh_CN/latest/user/quickstart.html(官网) What is requests? 答:基于urllib库的简单易用的http库 2、安装 pip3 install request 阅读全文
posted @ 2018-05-30 20:08 疾风_lu 阅读(951) 评论(0) 推荐(0) 编辑
  2018年5月29日
摘要: (1)、环境准备 requests + pymongo 库 (2)、页面分析 首先登录拉钩并输入关键字:爬虫工程师 我们可以发现这些数据都是js加载的 接着打开chrome的开发者工具选项并勾选XHR 我们发现我们需要的信息包含在result中 我们通过观察发现该请求为post请求 最后我们需要模拟 阅读全文
posted @ 2018-05-29 22:56 疾风_lu 阅读(1211) 评论(0) 推荐(0) 编辑