scrapy中通过set()方法进行数据过滤去重

我们经常在抓取数据是碰到数据重复的问题，除了radis数据库去重功能外，还有一种简便的过滤方法，

来来我们直接上代码：

pipelines.py中:

from scrapy.exceptions import DropItem  #导入异常处理模块


class Baidu03Pipeline(object):
    def __init__(self):          　　#建立构造方法
        self.title = set()       　　#定义集合
    def process_item(self, item, spider):
        title = item['title']    　　#取出要进行判断数据是否重复的字段
        if title in self.title:  　　#如果存在集合中则直接删除该项，
            raise DropItem('{}已存在'.format(title))  
        self.title.add(title)       #如果数据不重复，则加入集合
        ......                      #插库数据 写在这里即可。。。

        return item

posted @ 2018-10-23 19:34 Mr_lvye 阅读(909) 评论(0) 收藏举报

刷新页面返回顶部

Mr_lvye

拒绝平庸，追求每一行代码的极致性能与优雅。

scrapy中通过set()方法进行数据过滤去重

我们经常在抓取数据是碰到数据重复的问题，除了radis数据库去重功能外，还有一种简便的过滤方法，

来来我们直接上代码：

公告

Mr_lvye

拒绝平庸，追求每一行代码的极致性能与优雅。

scrapy中通过set()方法进行数据过滤去重

我们经常在抓取数据是碰到 数据重复的问题，除了radis数据库去重功能外，还有一种简便的过滤方法，

来来 我们直接上代码：

公告

我们经常在抓取数据是碰到数据重复的问题，除了radis数据库去重功能外，还有一种简便的过滤方法，

来来我们直接上代码：