搜索引擎蜘蛛名称: Baiduspider+(+http://www.baidu.com/search/spider.htm) 百度蜘蛛 Mozilla/5.0(compatible;Yahoo! Slurp China; http://misc.yahoo.com.cn/http.html) 雅虎中国蜘蛛 Mozilla/5.0(compatible; Yahoo! Slurp/3.0;http://help.yahoo.com/help/us/ysearch/slurp) 英文雅虎蜘蛛 Mozilla/5.0(compatible;Googlebot/2.1;+http://www.go. Read More
posted @ 2011-08-05 13:25 无为而无不为 Views(89) Comments(0) Diggs(0) Edit
蜘蛛爬行遍历策略分为两种:一种是深度优先,另一种是广度优先。   深度优先就是蜘蛛沿着发现的链接一直先前爬行,知道最后的网页没有链接就返回发现的链接页面从第二个链接继续向前爬行。   广度优先就是蜘蛛发现了一个网页就把这个网页上的一级链接全部打开抓取一遍,之后再把所有一级网页上的链接抓取一遍,一次类推。 Read More
posted @ 2011-08-05 13:24 无为而无不为 Views(192) Comments(0) Diggs(0) Edit