2020 年 7月 25 日随笔档案 - Norni

2020年7月25日

摘要：在settings.py中,虽然没有明确写出来去重方式,但是默认为以下内容 DUPEFILTER_CLASS = 'scrapy.dupefilter.RFPDupeFilter' DUPEFILTER_CLASS = False JOBDIR = "保存范文记录的日志路径，如：/root/" # 阅读全文

posted @ 2020-07-25 16:14 Norni 阅读(344) 评论(0) 推荐(0) 编辑

二十四、在scrapy中如何获取cookies

摘要： import scrapyclass BaiduSpider(scrapy.Spider): name = 'baidu' allowed_domains = ['www.baidu.com'] start_urls = ['http://www.baidu.com/'] def parse(sel 阅读全文

posted @ 2020-07-25 15:09 Norni 阅读(1161) 评论(0) 推荐(0) 编辑

十六、 IO多路复用,异步非阻塞

摘要：总结: 与实现twisted或tornado的原理类似,通过理解这个代码,能实现其他异步框架的理解参考: IO模型:https://www.cnblogs.com/nuochengze/p/13372747.html socket在爬虫中的表层应用:https://www.cnblogs.com/ 阅读全文

posted @ 2020-07-25 10:36 Norni 阅读(126) 评论(0) 推荐(0) 编辑

公告