摘要: 实例目标:爬取知网空间300个期刊论文 参考链接有详细的原理和教程 一。调度器:用来控制整个流程 spider_main.py 二。URL管理器(数据库,redis缓存, 内存) : 管理待抓取URL集合和已抓取URL集合 (防止重复和循环抓取) url_manager.py 三。网页下载器(官方的 阅读全文
posted @ 2017-11-29 12:59 Python++ 阅读(969) 评论(0) 推荐(0) 编辑