一篇介绍爬虫的老文章

<Writing a Web Crawler in the Java Programming Language>
搜索引擎用爬虫(crawler)获取web上的资源,然后对抓下的网页建立索引
作者说的建自己的爬虫的几个原因,我的原因是属于monitor sites
crawler的原理和人们用浏览器浏览网页的原理一样,只不过是automate了这个过程
具体实现流程:在run方法中。维护两个列表 to-search list 和 already-searched list,并考虑了robots exclusion standard
posted @ 2009-02-27 10:51  菁小兔  阅读(176)  评论(0编辑  收藏  举报