ken桑带你读源码之scrapy scrapy\core\scheduler.py

从英文来看是调度程序我们看看是怎么调度

　　首先爬虫队列有两个一个是保存在内存中没有历史记录重新开始 42行 self.mqs = self.pqclass(self._newmq)

另外一个是存在硬盘的队列用于断点续传大家看 43 行 self._dq() if self.dqdir else None 先是判断是否有 join(jobdir, 'requests.queue') 这个文件 (保存已抓取request hash)

然后获取 join(self.dqdir, 'active.json') 该文件是已经塞入队列但没有抓取的url

53行 def enqueue_request 塞入队列先保存硬盘队列然后不行再保存内存队列

66行 def next_request(self): 获取队列

posted @ 2018-01-12 06:59 ken桑带你飞阅读(149) 评论(0) 编辑收藏举报

刷新页面返回顶部

俺配不起