爬虫（scrapy第一篇）

------------------------------------------------------------------------------------------------------------------------------

scrapy shell http://bj.ganji.com/fang1/chaoyang/ 打开shell交互模式

In [1]: response
Out[1]: <200 http://bj.ganji.com/fang1/chaoyang/>

In [2]: view(response)
Out[2]: True

In [26]: response.xpath('''//*[@class="f-list-item "]/dl/dd[5]/div[1]/span[1]/text()''').extract() 利用xpath筛选需要的信息

------------------------------------------------------------------------------------------------------------------------------

参考（视频）：http://www.icourse163.org/learn/BIT-1001870001?tid=1001962001#/learn/content?type=detail&id=1002703036&cid=1003120599

参考：https://zhuanlan.zhihu.com/p/24669128?group_id=834424262096994304

1、Scrapy 爬虫框架----结构简介：

　　实现爬虫功能的一个软件结构和功能组件的集合，整个框架是一个半成品

　　　　1.1、通过数据流动来理解：

　　　　　　路径1：

　　　　　　　　①：Engine从Spider处获取爬取请求（Request）
　　　　　　　　②：Engine将爬取请求转发给Scheduler，用于调度

　　　　　路径2：

　　　　　　　　③：Engine从Scheduler获取下一个要爬取的请求
　　　　　　　　④：Engine将爬取请求通过中间件发送给Downloader

　　　　　　　　⑤爬取网页后，Downloader形成响应（Response）通过中间件发送给Engine

　　　　　　　　⑥Engine收到响应后，通过中间件发送给Spider处理

　　　　　路径3：

　　　　　　　　⑦Spider处理响应请求后产生爬取项（scraped Item）和新的爬取请求（Request）给Engine

　　　　　　　　⑧Engine将爬取项发送给Item Pipeline（框架出口）

　　　　　　　　⑨Engine将爬取请求发送给Scheduler

posted on 2017-07-13 02:02 漏三刀阅读(182) 评论(0) 编辑收藏举报