scrapy学习笔记

命令流程:

scrapy startproject study #创建一个项目,名字为study

cd study #进入study目录

scrapy genspider yibaizhang yibaizhang.com #创建爬虫,名字为yibaizhang

## spider 目录所有的存放爬虫,可以通过scrapy list命令看到。有yibaizhang.py文件,内含YibaizhangSpider类,因为是scrapy.Spider的基类,故其初始执行函数为start_requests,可以通过重写此函数,指定初始的解析函数(代替parse)

## 解析使用的是scrapy.Selector类,其xpath方法,有几个函数:

response.xpath('//div[starts-with(@id, "hea")]')  # 以hea开头

response.xpath('//div[contains(@id, "ner")]') # 包含ner

response.xpath('//div[re:test(@id, "info$")]') # 正则表达式

## URL去重,默认使用的是scrapy.dupefilters.RFPDupeFilter,在settings/default_settings.py指定的。可以修改的自定义的,需要在setting.py文件中,配置DUPEFILTER_CLASS的值

比如:DUPEFILTER_CLASS = "study.duplication.MyDupeFilter"。使用duplication文件中的MyDupeFilter类。该类可以继承自scrapy.dupefilters.BaseDupeFilter,实现其中的方法

## pipeline 用来做持久化

有files, images, media 三个scrapy提供的pipeline可用。可以根据需求实现自己的Pipeline,可以加上这几个方法:

@classmethond from_crawler(self, crawler); open_spider(self, spider); close_spider(self, spider);

多个pipeline的时候,前一个return item 可以传递给下一个pipeline类。如果不需要传下去,可以raise scrapy.exceptions.DropItem

通过spider.name指定爬虫的pipeline

posted @ 2018-08-31 00:48  二狗啸地  阅读(111)  评论(0编辑  收藏  举报