------------------------------------------------------------------------------------------------------------------------------
scrapy shell http://bj.ganji.com/fang1/chaoyang/ 打开shell交互模式
In [1]: response
Out[1]: <200 http://bj.ganji.com/fang1/chaoyang/>
In [2]: view(response)
Out[2]: True
In [26]: response.xpath('''//*[@class="f-list-item "]/dl/dd[5]/div[1]/span[1]/text()''').extract() 利用xpath筛选需要的信息
------------------------------------------------------------------------------------------------------------------------------
参考(视频):http://www.icourse163.org/learn/BIT-1001870001?tid=1001962001#/learn/content?type=detail&id=1002703036&cid=1003120599
参考:https://zhuanlan.zhihu.com/p/24669128?group_id=834424262096994304
1、Scrapy 爬虫框架----结构简介:
实现爬虫功能的一个软件结构和功能组件的集合,整个框架是一个半成品
1.1、通过数据流动来理解:
路径1:
①:Engine从Spider处获取爬取请求(Request)
②:Engine将爬取请求转发给Scheduler,用于调度
路径2:
③:Engine从Scheduler获取下一个要爬取的请求
④:Engine将爬取请求通过中间件发送给Downloader
⑤爬取网页后,Downloader形成响应(Response)通过中间件发送给Engine
⑥Engine收到响应后,通过中间件发送给Spider处理
路径3:
⑦Spider处理响应请求后产生爬取项(scraped Item)和新的爬取请求(Request)给Engine
⑧Engine将爬取项 发送给Item Pipeline(框架出口)
⑨Engine将爬取请求发送给Scheduler