会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Snail Run
一直在路上的耕耘者
博客园
首页
新随笔
联系
订阅
管理
2016年6月8日
网络爬虫通用策略
摘要: 1、通用爬虫框架: 选取种子URL-》放入待抓取URL队列-》下载网页形成网页库-》已抓取URL队列-》抽取URL放入待抓取URL队列末尾 已下载网页集合 == 已过期网页集合 == 待下载网页集合 == 可知网页集合 == 不可知网页集合 2、禁抓协议:爬虫禁抓协议(robot.txt) + 网页
阅读全文
posted @ 2016-06-08 16:38 CN.SnailRun
阅读(1243)
评论(0)
推荐(0)
编辑
公告