在scrapy中过滤重复的数据

当为了确保爬到的数据中没有重复的数据的时候,可以实现一个去重的item pipeline

 

增加构造器方法,在其中初始化用于对与书名的去重的集合

 

在process_item方法中,先取出item中要判断的字段的名称,检查是否已经存在集合中了,如果已经存在了就是重复的数据抛出一个DropItem的异常,并将这个item抛弃,否则就将这个item的字段保存到集合中,并返回这个item

posted @ 2019-10-18 19:53  tulintao  阅读(764)  评论(0编辑  收藏  举报