摘要: http://www.cnblogs.com/GUIDAO/p/6690759.html 本人步骤: 1>setting.py: BOT_NAME = 'newding' SPIDER_MODULES = ['newding.spiders'] NEWSPIDER_MODULE = 'newding 阅读全文
posted @ 2017-06-30 13:57 航林 阅读(532) 评论(0) 推荐(0) 编辑
摘要: 基于Redis的三种分布式爬虫策略 前言: 爬虫是偏IO型的任务,分布式爬虫的实现难度比分布式计算和分布式存储简单得多。 个人以为分布式爬虫需要考虑的点主要有以下几个: ? 爬虫任务的统一调度 ? 爬虫任务的统一去重 ? 存储问题 ? 速度问题 ? 足够“健壮”的情况下实现起来越简单/方便越好 ?  阅读全文
posted @ 2017-06-21 09:11 航林 阅读(3808) 评论(0) 推荐(0) 编辑