在scrapy中过滤重复的数据

当为了确保爬到的数据中没有重复的数据的时候，可以实现一个去重的item pipeline

增加构造器方法，在其中初始化用于对与书名的去重的集合

在process_item方法中，先取出item中要判断的字段的名称，检查是否已经存在集合中了，如果已经存在了就是重复的数据抛出一个DropItem的异常，并将这个item抛弃，否则就将这个item的字段保存到集合中，并返回这个item