2013年5月15日

Python开源爬虫框架:Scrapy架构分析

摘要: 一、概述下图显示了Scrapy的大体架构,其中包含了它的主要组件及系统的数据处理流程(绿色箭头所示)。下面就来一个个解释每个组件的作用及数据的处理过程。二、组件1、Scrapy Engine(Scrapy引擎)Scrapy引擎是用来控制整个系统的数据处理流程,并进行事务处理的触发。更多的详细内容可以看下面的数据处理流程。2、Scheduler(调度)调度程序从Scrapy引擎接受请求并排序列入队列,并在Scrapy引擎发出请求后返还给他们。3、Downloader(下载器)下载器的主要职责是抓取网页并将网页内容返还给蜘蛛( Spiders)。4、Spiders(蜘蛛)蜘蛛是有Scrapy用户自 阅读全文

posted @ 2013-05-15 21:42 hellopython 阅读(273) 评论(0) 推荐(0) 编辑

导航