摘要:
去重原理:相当于是写了集合self.vister_urls=set(),把所有的url放进去当执行yield Requets的时候就会执行,进行判断,看是否这个访问的url在这个集合里面,如果在的话,就不添加进去了 from scrapy.utils.request import request_f 阅读全文
摘要:
执行顺序:pipeline写 pipeline类class Scrapyproject1Pipeline(object): def process_item(self, item, spider): 写items类:class Scrapyproject1Item(scrapy.Item): url 阅读全文