摘要: python简单爬虫实现day1 一、简单爬虫架构 爬虫调度端 URL管理器 网页下载器 网页解析器 价值数据 二、模块分析 1.URL管理器 URL管理器:管理待抓取URL集合和已抓取URL集合 - 防止重复抓取、防止循环抓取 功能: 实现方式: 内存 (python内存,待爬取URL集合:set 阅读全文
posted @ 2017-12-18 14:28 scissors 阅读(132) 评论(0) 推荐(0) 编辑
摘要: 一、windows安装virtualenvwrapper 1. 运行 pip install virtualenv virtualenvwrapper 命令 (如果安装慢可以使用豆瓣源 pip install -i http://pypi.douban.com/simple scrapy) 2. 运 阅读全文
posted @ 2017-12-18 14:21 scissors 阅读(1410) 评论(0) 推荐(1) 编辑