超SEO的搜索引擎观察博客:    SEO技术    SEO新闻    关键词优化    Google算法    Google新闻    百度新闻

超SEO博客

关注搜索引擎发展、透析搜索引擎原理、优化搜索引擎排名、分享、交流SEO技术
  博客园  :: 联系 :: 管理

实验分析搜索引擎爬取、索引与网页深度的关系

Posted on 2010-02-07 23:24  Google优化  阅读(2554)  评论(0编辑  收藏  举报

实验分析搜索引擎爬取、索引与网页深度的关系

       爬虫爬取的策略前面已经讲过了,但是网页深度与搜索引擎爬取、索引的关系真实的是怎样的呢?最近有国外SEO对一个大型网站索引情况进行了分析,体现了Google索引与页面深度的一些关系,反映了爬虫的一些规律。


网页深度与爬取、索引的关系

 1.大型网站网站的层次结构与搜索引擎的爬取特点

      一个典型大网站一般采用下面的层次结构:

站点的层次结构

      但是爬虫爬取的优先级按下面的原则,一般很顶层的页面是优先爬取的,但是有些最终内容页,也就是一些底层的页面,也会获得很高的爬取优先级,根据前面介绍的爬虫策略,可能由于这些页面获取了一定数量的外链内链等等:

爬虫优先结构

  这个还只是理论上的认识,Google管理员论坛上也曾说过页面深度6左右是可以接受的,但是网页深度和索引、爬取关系到底是怎么样的? 

 

 2.网页深度与搜索引擎爬取、索引分析试验

          这次分析的对象是一个波兰的大型动物、宠物类的分类信息网站,页面总数超过10万页,以该网站的分类目录的分页页面为分析对象,使用site命令来分析,如site:www.morusek.pl inurl:"/0/" inurl:ogloszenia,表示所有url中含“/0/”的页面,因为这个网站一个分类目录页面的第一页在URL中用"/0/"标识,同理"/1/"表示第二页,这样site命令得出的分类目录页面第一页被索引的数量,这里不考虑site命令的不准确性,同理得出第二页的被索引的数量,为了更清晰的表达,下面是一个分类目录页面的下方分页导航条:

通过site命令分析得出分页被索引的概率如下图所示: 
由于site命令不准确,所以同时通过Google管理员工具里的内链工具分析,得到分页的索引概率图如下,可以看出来总体趋势是相似的,从逼近线可以看出来随着页面深度的加深,索引概率以1.2%-1.3%在递减: 
 可以看出来,从Google管理员工具的内链功能分析的结果来看,从第五页开始索引率骤降,那如果将上面的分页导航条改成如下: 

修改后效果非常明显,第10页与15页的索引概率明显上升,如下图所示:


SEO讨论

     上述实验的因素可能不是那么很全面,但是可以从侧面反映了一些很重要的问题:

         1.随着深度增加,索引概率将大大降低,而非常深的页面数量一般是巨大的,索引量的高低严重影响内链的数量。

         2.同时可以出来修改分页导航条,在入口页面增加链接,只会增加被链接页面索引的概率,不会该页面临近页面的索引概率,说明这些邻近的页面的深度还是深了,一步之差,索引概率大大降低。

      所以对于大量分页的情况,应该尽量减少页面的深度,那就只能增加单页的链接数量,将分页减少到将每个分页的链接都降低到最低, 足够在入口页面放下分页链接,往往一步之差,差别很大。这里只是简单介绍一下,详细的内容可以到:Testing How Crawl Priority Works


SEO技术与基础更多阅读

超 SEO logo 疯狂的多域名富关键词网站优化策略
网络爬虫策略介绍
Google优化排名最重要的五个因素
揭秘Google News排名因素
Google Caffeine搜索结果初探

将 本 文收藏到:   365Key