第4章 URL管理器和实现方法
URL管理器:管理待抓取URL集合和已抓取URL集合
-- 防止重复抓取、防止循环抓取
URL需要支持哪些功能:
添加新URL到待爬取集合中、判断待添加URL是否在容器中,判断是否还有待爬取URL,获取待爬取URL,将URL从待爬取移动到已爬取。
URL管理器的实现方式:
1.内存 python内存 待爬取URL集合:set() 已爬取URL集合:set()
2.关系数据库 mysql urls(url,is_crawled)
3.缓存数据库 redis 待爬取URL集合 已爬取URL集合