摘要:
scrapy-redis是一个基于redis的scrapy组件,通过它可以快速实现简单分布式爬虫程序,该组件本质上提供了三大功能: scheduler - 调度器 dupefilter - URL去重规则(被调度器使用) pipeline - 数据持久化 1.用redis去重url # ###### 阅读全文
摘要:
使用框架的预留位置,帮助我们自定义一些功能。在操作数据库之前进行操作 Django信号 很多数情况下,我们需要在操作数据库之前或者之后做某些操作,比如说写个日志之类的,我们当然可以找到每一个sql语句,在其前后加一段代码, 但是,这不但浪费时间,还为以后的维护增加了难度,这个时候,就体现出信号的作用 阅读全文
摘要:
windows编码 import sys,os sys.stdout=io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030') 数据拼接 结果 URL的唯一标识 """ """ # 原来 """ import requests url_list = 阅读全文