摘要: scrapy-redis是一个基于redis的scrapy组件,通过它可以快速实现简单分布式爬虫程序,该组件本质上提供了三大功能: scheduler - 调度器 dupefilter - URL去重规则(被调度器使用) pipeline - 数据持久化 1.用redis去重url # ###### 阅读全文
posted @ 2019-03-02 22:38 离人怎挽_wdj 阅读(192) 评论(0) 推荐(0) 编辑
摘要: 使用框架的预留位置,帮助我们自定义一些功能。在操作数据库之前进行操作 Django信号 很多数情况下,我们需要在操作数据库之前或者之后做某些操作,比如说写个日志之类的,我们当然可以找到每一个sql语句,在其前后加一段代码, 但是,这不但浪费时间,还为以后的维护增加了难度,这个时候,就体现出信号的作用 阅读全文
posted @ 2019-03-02 20:12 离人怎挽_wdj 阅读(140) 评论(0) 推荐(0) 编辑
摘要: windows编码 import sys,os sys.stdout=io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030') 数据拼接 结果 URL的唯一标识 """ """ # 原来 """ import requests url_list = 阅读全文
posted @ 2019-03-02 14:00 离人怎挽_wdj 阅读(173) 评论(0) 推荐(0) 编辑