第4章 URL管理器和实现方法

URL管理器:管理待抓取URL集合和已抓取URL集合

 -- 防止重复抓取、防止循环抓取

URL需要支持哪些功能:

添加新URL到待爬取集合中、判断待添加URL是否在容器中,判断是否还有待爬取URL,获取待爬取URL,将URL从待爬取移动到已爬取。

URL管理器的实现方式:

1.内存  python内存  待爬取URL集合:set()            已爬取URL集合:set()

2.关系数据库  mysql  urls(url,is_crawled)

3.缓存数据库  redis 待爬取URL集合        已爬取URL集合

posted @ 2017-08-14 16:13  怪咖在骚动  阅读(263)  评论(0编辑  收藏  举报