超SEO的搜索引擎观察博客:    SEO技术    SEO新闻    关键词优化    Google算法    Google新闻    百度新闻

超SEO博客

关注搜索引擎发展、透析搜索引擎原理、优化搜索引擎排名、分享、交流SEO技术
  博客园  :: 联系 :: 管理

网络爬虫策略介绍

Posted on 2009-12-26 19:20  Google优化  阅读(9253)  评论(0编辑  收藏  举报

网络爬虫策略介绍

  Web爬虫(Crawler,Robot,Bot,Spider)与爬取(Crawling),被认为所谓的SEO学习的第一步。由于现在各大搜索引擎提倡通过sitemap主动提交内容,避免一些重要内容没有被及时抓取取到或者由于被搜索引擎大量抓取而影响服务器性能,所以网络爬虫原理对SEO显得已经并不是那么重要了,特别是实时搜索的出现。不过这里还是要说下爬虫爬取策略,进一步了解搜索引擎,有助于良好的设计网站。无论百度爬虫还是Google爬虫策略应该类似的,只是技术实现不同。


爬虫抓取策略介绍

      Google去年在其官方博客声称已经发现了一万亿的独立URL,面对如此庞大的Web,,分布式的增量爬虫系统是相当的复杂。Google爬虫为了节省带宽,采用了Crawl Caching Proxy(缓存代理),避免Google多种爬虫(GoogleBot,GoogleBlogsearch Bot,GoogleNews Bot等等)重复爬取同一页面。现在网上复制内容或者同一内容不同表现形式导致大量重复内容,爬虫面临的问题就是减少大量重复内容的抓取

      由于爬虫系统相当复杂,这里主要介绍爬虫的一些爬取策略。对于搜索引擎而言,爬虫最重要的效率,一个重要的评价标准就是爬虫开销,Dasgupta等人将爬虫开销定义为:

爬虫开销=重复抓取的老页面数/发掘新页面数

看得出来,以最快的速度抓取最重要的、最新的页面,才是最好的爬虫策略。网上各种爬虫介绍文章可能都提到过爬取策略,如广度优先、最佳优先,或者还有线性以及最新的OPIC(On-Line Page Importance Computation)策略等等,其实现在基本上采用混合策略,对每个页面有一个优先级,Google爬虫对页面的爬取优先级考虑以下几点因素:

     1.查询驱动的爬取,对于一个查询,页面与查询的相关性高低决定了页面被爬取的优先级,但是由于在页面未被爬取前无法判定相关性,只能通过已爬取的其他页面来判断未爬取的页面的相关性,如指向该页面的链接、锚文本等来决定。这个爬取策略可能特别适合现在新闻之类的实时搜索,当突发性的用户热门查询发生时,爬虫可能赋予一些包含相关内容页面一个很高的优先级,快速爬取和更新热门内容页面,可以快速满足用户的需求。

     2. 反向链接数,一个面被很多页面或者被重要页面指向,这个页面被爬取的优先级越高,这个也适合新闻之类的实时内容,一些热门内容被快速复制,产生大量的反向链接或者被大型门户网站指向,这些页面可能被赋予很高的爬取权重。

     3.PR值,一个页面的PR,与上面的纯粹的反向链接计数不同,这个全局考虑页面的重要性,当然这个因素的更新的时间比较长。

     4.前向链接数,也就是出链数量,这个页面出链数量很大,指向大量页面,有可能获得很多新页面的链接,所以也被赋予很高的优先级。

   5.URL:路径深度是一个考虑的因素,一般重要页面的路径深度都比较浅,爬取的优先级要高。

 以上只是其中的一些因素,跟搜索引擎排名一样,一个有效爬虫系统必须考虑多个因素才能合理抓取,提高爬取效率。新的策略也将继续出现,如RPR(Reverse Pagerank),也叫反向PR(逆PR),就是将整个互联网的链接方向倒过来,出链变成入链,计算出来的PR值,RPR越高爬取优先级越高。


SEO讨论

       从上面的因素可以看出来,尽量让网站呈一种扁平的层次结构,构建一些重要资源列表页面,方便爬虫快速抓取一些最新内容,减少搜索引擎的爬取开销,还可以及时的为一些热门内容及时增加有效内链,提高热门内容的排名,这对大型网站这一点特别重要。避免生成无限URL的爬虫陷阱以及针对爬虫的Cloaking作弊。不要产生垃圾页面,会影响到所指向页面的抓取。当然要想让搜索引擎频繁光顾你的网站还是要提高网站的权重,提高内容质量。

     这里介绍一下爬取和索引的关系,爬取只是索引的必要条件,不是充分条件,没有被搜索引擎索引并不代表没有被爬虫爬取,没有索引可能是你的内容不过关,如重复内容、含有垃圾内容等,也可能你的网站还在Google沙盒期,或者你的网站被惩罚了,建议查看网站日志来查看是否被爬虫爬取。 

      模拟爬虫的工具也很多,如著名的Xenu,Google管理员工具的模拟爬虫功能等, 对于新的网站和页面以及js,flash和frame内容的抓取、sitemap和robots.txt等爬虫的控制方法可以参考Google网站管理员指南或者百度站长帮助


超 SEO logo 

SEO技术与基础更多阅读

Google优化排名最重要的五个因素
揭秘Google News排名因素
Google Caffeine搜索结果初探
SEO 2009 Google优化排名系列之五大负面因素
Google为什么将网站访问速度作为排名的重要因素?

将本文收藏到:   365Key      ;