一篇介绍爬虫的老文章

<Writing a Web Crawler in the Java Programming Language>
搜索引擎用爬虫(crawler)获取web上的资源，然后对抓下的网页建立索引
作者说的建自己的爬虫的几个原因，我的原因是属于monitor sites
crawler的原理和人们用浏览器浏览网页的原理一样，只不过是automate了这个过程
具体实现流程：在run方法中。维护两个列表 to-search list 和 already-searched list，并考虑了robots exclusion standard