摘要: 在settings.py中,虽然没有明确写出来去重方式,但是默认为以下内容 DUPEFILTER_CLASS = 'scrapy.dupefilter.RFPDupeFilter' DUPEFILTER_CLASS = False JOBDIR = "保存范文记录的日志路径,如:/root/" # 阅读全文
posted @ 2020-07-25 16:14 Norni 阅读(344) 评论(0) 推荐(0) 编辑
摘要: import scrapyclass BaiduSpider(scrapy.Spider): name = 'baidu' allowed_domains = ['www.baidu.com'] start_urls = ['http://www.baidu.com/'] def parse(sel 阅读全文
posted @ 2020-07-25 15:09 Norni 阅读(1161) 评论(0) 推荐(0) 编辑
摘要: 总结: 与实现twisted或tornado的原理类似,通过理解这个代码,能实现其他异步框架的理解 参考: IO模型:https://www.cnblogs.com/nuochengze/p/13372747.html socket在爬虫中的表层应用:https://www.cnblogs.com/ 阅读全文
posted @ 2020-07-25 10:36 Norni 阅读(126) 评论(0) 推荐(0) 编辑