摘要: 去重原理:相当于是写了集合self.vister_urls=set(),把所有的url放进去当执行yield Requets的时候就会执行,进行判断,看是否这个访问的url在这个集合里面,如果在的话,就不添加进去了 from scrapy.utils.request import request_f 阅读全文
posted @ 2018-11-10 18:34 风不再来 阅读(383) 评论(0) 推荐(0) 编辑
摘要: 执行顺序:pipeline写 pipeline类class Scrapyproject1Pipeline(object): def process_item(self, item, spider): 写items类:class Scrapyproject1Item(scrapy.Item): url 阅读全文
posted @ 2018-11-10 07:55 风不再来 阅读(1134) 评论(0) 推荐(0) 编辑