scrapy
scrapy startproject myproject #创建项目
scrapy genspider mydomain mydomain.com #创建spider
scrapy crawl myspider #使用spider进行爬取
scrapy list #列出当前项目中所有可用的spider
Spider类
并没有提供什么特殊的功能。 其仅仅请求给定的 start_urls/start_requests ,
并根据返回的结果(resulting responses)调用spider的 parse 方法。
Selectors
构建于 lxml 库之上
.xpath() 及 .css() 方法返回一个类 SelectorList 的实例, 它是一个新选择器的列表
response.xpath('//title/text()').extract()
response.css('title::text').extract()
pipelines
用来存储数据