摘要: 搜索引擎用爬虫(crawler)获取web上的资源,然后对抓下的网页建立索引 作者说的建自己的爬虫的几个原因,我的原因是属于monitor sites crawler的原理和人们用浏览器浏览网页的原理一样,只不过是automate了这个过程 具体实现流程:在run方法中。维护两个列表 to-search list 和 already-searched list,并考虑了robots exclus... 阅读全文
posted @ 2009-02-27 10:51 菁小兔 阅读(176) 评论(0) 推荐(0) 编辑