疾风_lu - 博客园

2018年5月23日

Scrapy爬虫框架（实战篇）【Scrapy框架对接Splash抓取javaScript动态渲染页面】

摘要：（1）、前言动态页面：HTML文档中的部分是由客户端运行JS脚本生成的，即服务器生成部分HTML文档内容，其余的再由客户端生成静态页面：整个HTML文档是在服务器端生成的，即服务器生成好了，再发送给我们客户端这里我们可以观察一个典型的供我们练习爬虫技术的网站：quotes.toscrape.c 阅读全文

posted @ 2018-05-23 23:26 疾风_lu 阅读(23958) 评论(3) 推荐(0) 编辑

2018年5月21日

Scrapy爬虫框架第八讲【项目实战篇：知乎用户信息抓取】--本文参考静觅博主所写

摘要：思路分析：（1）选定起始人（即选择关注数和粉丝数较多的人--大V）（2）获取该大V的个人信息（3）获取关注列表用户信息（4）获取粉丝列表用户信息（5）重复（2）（3）（4）步实现全知乎用户爬取实战演练：（1）、创建项目：scrapy startproject zhijutest （2）阅读全文

posted @ 2018-05-21 14:26 疾风_lu 阅读(2444) 评论(4) 推荐(2) 编辑

2018年5月18日

Scrapy爬虫框架第七讲【ITEM PIPELINE用法】

摘要： ITEM PIPELINE用法详解： ITEM PIPELINE作用：清理HTML数据验证爬取的数据(检查item包含某些字段) 去重(并丢弃)【预防数据去重，真正去重是在url,即请求阶段做】将爬取结果保存到数据库中 ITEM PIPELINE核心方法（4个）（1）、open_spider 阅读全文

posted @ 2018-05-18 23:04 疾风_lu 阅读(6028) 评论(0) 推荐(0) 编辑

2018年5月17日

Scrapy爬虫框架第五讲（linux环境)【download middleware用法】

摘要： DOWNLOAD MIDDLEWRE用法详解通过上面的Scrapy工作架构我们对其功能进行下总结：（1）、在Scheduler调度出队列时的Request送给downloader下载前对其进行修改（2）、在下载生成后的Response发送给Spider并在Spider对其解析之前对其修改【这阅读全文

posted @ 2018-05-17 16:31 疾风_lu 阅读(2395) 评论(0) 推荐(0) 编辑

2018年5月16日

Windows下Scrapy框架的安装

摘要：总纲：(建议小伙伴们开启系统代理，代理最好选国外) 1、安装wheel pip install wheel 2、安装lxml http:www.lfd.uci.edu/~gohlke/pythonlibs/#lxml 3、安装PyOpenssl https://pypi.python.org/pyp 阅读全文

posted @ 2018-05-16 23:03 疾风_lu 阅读(323) 评论(0) 推荐(0) 编辑

2018年5月15日

Scrapy爬虫框架补充内容三(代理及其基本原理介绍)

摘要：前言：（本文参考维基百科及百度百科所写）当我们使用爬虫抓取数据时，有时会产生错误比如：突然跳出来了403 Forbidden 或者网页上出现以下提示：您的ip访问频率太高或者时不时跳出一个验证码需要你输入，这是由于网站采取了反爬虫措施：服务器会检查某个固定的ip在单位时间内请求的次数，如果发现请阅读全文

posted @ 2018-05-15 18:44 疾风_lu 阅读(1030) 评论(0) 推荐(0) 编辑

2018年5月14日

Scrapy爬虫框架第四讲(Linux环境）【Selector的使用】

摘要：下面我们来学习Selector的具体使用：（参考文档：http://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/selectors.html） Selector简介：Scrapy框架提供了自己的一套数据提取方法即Selector（选择器），它是基于lxml构阅读全文

posted @ 2018-05-14 14:08 疾风_lu 阅读(814) 评论(0) 推荐(0) 编辑

2018年5月13日

Scrapy爬虫框架补充内容一(Linux环境)【Scrapy爬虫框架结构及工作原理】

摘要： Scrapy爬虫框架结构及工作原理详解 scrapy框架的框架结构如下：组件分析： ENGINE:(核心)：处理整个框架的数据流，各个组件在其控制下协同工作 SCHEDULER（调度器）：负责接收引擎发送来的请求，并压入队列，在引擎再次请求时返回 SPIDER（蜘蛛）：负责从网页中提取指定的信息，阅读全文

posted @ 2018-05-13 23:25 疾风_lu 阅读(616) 评论(0) 推荐(0) 编辑

Scrapy爬虫框架第三讲（linux环境）【Spider的使用】

摘要：下面我们来学习下Spider的具体使用：我们已上节的百度阅读爬虫为例来进行分析： 1、继承scrap.Spider 摘自官方文档意思如下：scrapy框架为我们提供了一个Spider基类，我们编写的spider要继承它，如上面我们编写了一个BookSpider类，而这个类是继承于scrapy.S 阅读全文

posted @ 2018-05-13 16:32 疾风_lu 阅读(923) 评论(0) 推荐(0) 编辑

2018年5月12日

Scrapy爬虫框架第二讲(Linux环境）【初识Scrapy框架】

摘要：在系统学习Scrapy前我们首先在看一个实际的项目，从宏观上把握下Scrapy爬虫框架的流程（填空题训练开始了，小伙伴们准备好了吗？）：这里我选取了百度阅读，我们来爬取所有新书榜的书单包括其书名；评分；出版商；价格信息 /目标站点：https://yuedu.baidu.com/rank/newb 阅读全文

posted @ 2018-05-12 16:26 疾风_lu 阅读(640) 评论(0) 推荐(0) 编辑

公告