2018年5月13日
摘要: Scrapy爬虫框架结构及工作原理详解 scrapy框架的框架结构如下: 组件分析: ENGINE:(核心):处理整个框架的数据流,各个组件在其控制下协同工作 SCHEDULER(调度器):负责接收引擎发送来的请求,并压入队列,在引擎再次请求时返回 SPIDER(蜘蛛):负责从网页中提取指定的信息, 阅读全文
posted @ 2018-05-13 23:25 疾风_lu 阅读(616) 评论(0) 推荐(0) 编辑
摘要: 下面我们来学习下Spider的具体使用: 我们已上节的百度阅读爬虫为例来进行分析: 1、继承scrap.Spider 摘自官方文档 意思如下:scrapy框架为我们提供了一个Spider基类,我们编写的spider要继承它,如上面我们编写了一个BookSpider类,而这个类是继承于scrapy.S 阅读全文
posted @ 2018-05-13 16:32 疾风_lu 阅读(923) 评论(0) 推荐(0) 编辑