摘要: #启用Redis调度存储请求队列 SCHEDULER = "scrapy_redis.scheduler.Scheduler" #确保所有的爬虫通过Redis去重 DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" #默认请求序列化使用的是pickle 但是我们可以更改为其他类似的。PS:这玩意儿2.X的可以用。3.X的不能用... 阅读全文
posted @ 2017-07-29 00:37 倪兴国 阅读(2871) 评论(1) 推荐(2) 编辑
摘要: # 用户代理 agents = [ "Mozilla/5.0 (Linux; U; Android 2.3.6; en-us; Nexus S Build/GRK39F) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1", "Avant Browser/1.2.789rel1 (http:... 阅读全文
posted @ 2017-07-29 00:36 倪兴国 阅读(657) 评论(0) 推荐(0) 编辑