Scrapy中的Pipeline

当Spider收集Item后会把它传递到Item管道，按照一定的顺序执行处理。每个Item管道组件是实现了简单方法的Python类，接收到Item后执行一些行为，可以决定此Item是否继续通过管道，或被丢弃。

Item管道的典型应用有：

1.清理HTML数据。
2.验证爬取的数据，检查Item是否有某些字段。
3.检查是否重复，可以丢弃。
4.将爬取的结果保存到数据库等。

1.编写Item管道

每个Item管道组件是一个独立的Python类，必须实现如下方法：

process_item(self, item, spider)：每个Item管道都调用此方法，返回一个字典，或Item对象，或抛出DropItem异常，抛出DropItem的将不会被后续的管道处理。

参数：
item：被爬取的Item对象
spider：爬取Item对象的Spider对象

每个Item管道组件也可以实现以下的额外方法：

open_spider(self, spider)：当spider被打开时调用。参数spider为被打开的Spider对象。
close_spider(self, spider)：当spider被关闭时调用。参数spider为被关闭的Spider对象。
from_crawler(cls, crawler)：如果实现了这个类方法，就会调用这个方法从Crawler创建管道实例。必须返回一个新的管道实例。而Crawler对象提供对所有Scrapy核心组件（如设置和信号）的访问。这样为管道提供了访问核心组件和链接Scrapy的方法。参数crawler为项目爬虫对象。

2.简单的例子

# 过滤价格的管道
class PricePipeline(object):
    vat_factor = 1.15

    def process_item(self, item, spider):
        if item.get('price'):
            if item.get('price_excludes_vat'):
                item['price'] = item['price'] * self.vat_factor  # 重新设置价格
            return item
        else:
            raise DropItem(u'缺失价格字段的Item：%s' % item)  # 没有price字段的Item，丢弃

# 把Item输出到JSON文件
class JsonWriterPipeline(object):
    def open_spider(self, spider):  # 打开spider时调用
        self.file = open('item.jl', 'w')  # 打开文件

    def close_spider(self, spider):  # 关闭spider时调用
        self.file.close()  # 关闭文件

    def process_item(self, item, spider):  # 实现把Item写入JSON
        line = json.dumps(dict(item)) + '\n'
        self.file.write(line)
        return item

# 把Item保存到MongoDB，如何使用from_crawler()清理资源
class MongoPipeline(object):
    def __init__(self, mongo_uri, mongo_db):
        self.collection_name = 'scrapy_items'
        self.mongo_uir = mongo_uri
        self.mongo_db = mongo_db

    @classmethod
    def from_crawler(cls, crawler):  # 用于创建管道实例
        return cls(mongo_uri=crawler.settings.get('MONGO_URI'),  # 从爬虫的设置里拿mongo_uri
                   mongo_db=crawler.settings.get('MONGO_DATABASE', 'items'))  # 从爬虫的设置里拿mongo_db

    def open_spider(self, spider):
        self.client = pymongo.MongoClient(self.mongo_uir)  # Mongo客户端
        self.db = self.client[self.mongo_db]  # Mongo数据库

    def close_spider(self, spider):
        self.client.close()  # 关闭Mongo

    def process_item(self, item, spider):
        self.db[self.collection_name].insert_one(dict(item))  # 把Item保存到Mongo数据库
        return item

# 过滤重复的Item
class DuplicatePipeline(object):
    def __init__(self):
        self.ids_exist = set()  # 保存Item的id，每个id都唯一
        
    def process_item(self, item, spider):
        if item['id'] in self.ids_exist:
            raise DropItem(u'重复的Item：%s' % item)  # 丢弃id已经存在的Item
        else:
            self.ids_exist.add(item['id'])  # 把id加入到集合
            return item

3.激活管道组件

在爬虫的配置文件（settings.py）中，添加ITEM_PIPELINES配置，如

ITEM_PIPELINES = {
    'myproject.pipelines.PricePipeline': 300,
    'myproject.pipelines.JsonWriterPipeline': 800,
}

键表示引入的管道类，值用于指定执行的先后顺序，按数字从低到高的顺序执行，数字定义通常在0-1000的范围。

源码可于github下载：https://github.com/gkimeeq/WebCrawler。

posted @ 2019-08-01 10:20 gkimeeq 阅读(203) 评论(0) 编辑收藏举报

刷新页面返回顶部

Scrapy中的Pipeline

公告