Scrapy学习篇（七）之Item Pipeline

在之前的Scrapy学习篇（四）之数据的存储的章节中，我们其实已经使用了Item Pipeline，那一章节主要的目的是形成一个笼统的认识，知道scrapy能干些什么，但是，为了形成一个更加全面的体系，我们在这一章节中，将会单独介绍Item Pipeline，方便以后你自定义你的item pipeline。

当Item在Spider中被收集之后，它将会被传递到Item Pipeline，一些组件会按照一定的顺序执行对Item的处理。
每个item pipeline组件(有时称之为“Item Pipeline”)是实现了简单方法的Python类。他们接收到Item并通过它执行一些行为，同时也决定此Item是否继续通过pipeline，或是被丢弃而不再进行处理。

以下是item pipeline的一些典型应用：

清理HTML数据
验证爬取的数据(检查item包含某些字段)
查重(并丢弃)
将爬取结果保存到数据库或者文件中

编写item pipeline

每个item pipeline组件是一个独立的Python类，同时必须实现以下方法:

process_item(self, item, spider)
每个item pipeline组件都需要调用该方法，这个方法必须返回一个具有数据的dict，或是 Item (或任何继承类)对象，或是抛出 DropItem 异常，被丢弃的item将不会被之后的pipeline组件所处理。
参数:
- item (Item 对象或者一个dict) – 被爬取的item
- spider (Spider 对象) – 爬取该item的spider

spider (Spider 对象) – 被开启的spider

spider (Spider 对象) – 被关闭的spider

from_crawler(cls, crawler)
如果给出，这个类方法将会被调用从Crawler创建一个pipeline实例，它必须返回一个pipeline的新的实例，Crawler对象提供了调用scrapy所有的核心组件的权限，比如你可以调用settings里面的设置项。事实上，在后面的学习中，你会发现，这是非常常用的一个方法，你会经常用到。

使用Item Pipeline去重

一个用于去重的过滤器，丢弃那些已经被处理过的item。假设我们的item有一个唯一的id，但是我们spider返回的多个item中包含有相同的id，我们就可以使用集合来去重，下面是一个例子：

from scrapy.exceptions import DropItem

class DuplicatesPipeline(object):

    def __init__(self):
        self.ids_seen = set()

    def process_item(self, item, spider):
        if item['id'] in self.ids_seen:
            raise DropItem("Duplicate item found: %s" % item)
        else:
            self.ids_seen.add(item['id'])
            return item

可以看到，我们设置了一个去重集合，用来存放具有唯一性的id字段，当我们抓取的item里面的id已经被处理过，那么将会直接丢弃这个item，否则，就会进行后续的处理并且把这个id放入去重集合之中，达到去重的目的。

保存到文件或数据库

具体的代码，可以参照Scrapy学习篇（四）之数据的存储这一章节，这里就不在赘述。

启用Item Pipeline组件

为了启用一个Item Pipeline组件，你必须将它的类添加到 ITEM_PIPELINES 配置，就像下面这个例子:

ITEM_PIPELINES = {
    'tutorial.pipelines.textPipeline':300,
    'tutorial.pipelines.MongoPipeline':400
}

分配给每个类的整型值，确定了他们运行的顺序，item按数字从低到高的顺序，通过pipeline，通常将这些数字定义在0-1000范围内。

posted on 2019-02-02 14:34 liangxb 阅读(579) 评论(0) 编辑收藏举报