了解搜索引擎

    搜索引擎蜘蛛名称:
    Baiduspider+(+http://www.baidu.com/search/spider.htm) 百度蜘蛛
    Mozilla/5.0(compatible;Yahoo! Slurp China; http://misc.yahoo.com.cn/http.html) 雅虎中国蜘蛛
    Mozilla/5.0(compatible; Yahoo! Slurp/3.0;http://help.yahoo.com/help/us/ysearch/slurp) 英文雅虎蜘蛛
    Mozilla/5.0(compatible;Googlebot/2.1;+http://www.google.com/bot.html)Google蜘蛛
    msnbot/1.1(+http://search.msn.com/msnbot.htm) 微软Bing蜘蛛
    Sogou+web+robot+(+http://www.sogou.com/docs/help/webmasters.html#07)搜狗蜘蛛
    Sosospider+(+http://help.soso.com/webspider.htm)搜搜蜘蛛
    Mozilla/5.0(compatible;YodaoBot/1.0;http://www.yodao.com/help/webmaster/spider/;)有道蜘蛛
  蜘蛛爬行遍历策略分为两种:一种是深度优先,另一种是广度优先。
  深度优先就是蜘蛛沿着发现的链接一直先前爬行,知道最后的网页没有链接就返回发现的链接页面从第二个链接继续向前爬行。
  广度优先就是蜘蛛发现了一个网页就把这个网页上的一级链接全部打开抓取一遍,之后再把所有一级网页上的链接抓取一遍,一次类推。
  吸引蜘蛛的方法:
  1.权重高的网站被爬行的深度会比较高,收录的页面也会更多
  2.经常更新原创文章的网站被蜘蛛爬行抓取的机会比较多
  3.导入链接。无论是外部链接还是同一个网站的内部链接,要被蜘蛛抓取,就必须有导入链接进入页面,否则蜘蛛根本没有机会知道页面的存在。高质量的导入链接也经常使页面上的导出链接被爬行深度增加。这条我也不是很了解,现在正在学习中O(∩_∩)O哈哈~
  4.与网站点击距离越近被收录的机会就越大。一般来说网站上权重最高的是首页。
  
  蜘蛛抓取的信息是要进行处理的一半搜索引擎保留的都是除头部和底部网页文字内容(没有样式的,纯文字)、meta标签中的文字、图片替代文字、Flash文件的替代文字、链接锚文字等。
  
  搜索引擎会去掉停止词,比如“的”、“地”、“得”之类的助词,“啊”、“哈”、“呀”之类的感叹词,“从而”、“以”、“却”之类的副词或介词。所以在文章中简单的添加“的”、“地”、“得”,调换段落顺序这种所谓伪原创,并不能逃过搜索引擎的法眼。

posted @ 2011-08-05 13:24  无为而无不为  Views(192)  Comments(0Edit  收藏  举报