会员
周边
捐助
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
kangjj22
博客园
首页
新随笔
联系
管理
订阅
2009年2月27日
一篇介绍爬虫的老文章
摘要: 搜索引擎用爬虫(crawler)获取web上的资源,然后对抓下的网页建立索引 作者说的建自己的爬虫的几个原因,我的原因是属于monitor sites crawler的原理和人们用浏览器浏览网页的原理一样,只不过是automate了这个过程 具体实现流程:在run方法中。维护两个列表 to-search list 和 already-searched list,并考虑了robots exclus...
阅读全文
posted @ 2009-02-27 10:51 菁小兔
阅读(176)
评论(0)
推荐(0)
编辑
公告