摘要: 1、通用爬虫框架: 选取种子URL-》放入待抓取URL队列-》下载网页形成网页库-》已抓取URL队列-》抽取URL放入待抓取URL队列末尾 已下载网页集合 == 已过期网页集合 == 待下载网页集合 == 可知网页集合 == 不可知网页集合 2、禁抓协议:爬虫禁抓协议(robot.txt) + 网页 阅读全文
posted @ 2016-06-08 16:38 CN.SnailRun 阅读(1243) 评论(0) 推荐(0) 编辑