实验分析搜索引擎爬取、索引与网页深度的关系
爬虫爬取的策略前面已经讲过了,但是网页深度与搜索引擎爬取、索引的关系真实的是怎样的呢?最近有国外SEO对一个大型网站索引情况进行了分析,体现了Google索引与页面深度的一些关系,反映了爬虫的一些规律。
网页深度与爬取、索引的关系
1.大型网站网站的层次结构与搜索引擎的爬取特点
一个典型大网站一般采用下面的层次结构:
但是爬虫爬取的优先级按下面的原则,一般很顶层的页面是优先爬取的,但是有些最终内容页,也就是一些底层的页面,也会获得很高的爬取优先级,根据前面介绍的爬虫策略,可能由于这些页面获取了一定数量的外链内链等等:
这个还只是理论上的认识,Google管理员论坛上也曾说过页面深度6左右是可以接受的,但是网页深度和索引、爬取关系到底是怎么样的?
2.网页深度与搜索引擎爬取、索引分析试验
这次分析的对象是一个波兰的大型动物、宠物类的分类信息网站,页面总数超过10万页,以该网站的分类目录的分页页面为分析对象,使用site命令来分析,如site:www.morusek.pl inurl:"/0/" inurl:ogloszenia,表示所有url中含“/0/”的页面,因为这个网站一个分类目录页面的第一页在URL中用"/0/"标识,同理"/1/"表示第二页,这样site命令得出的分类目录页面第一页被索引的数量,这里不考虑site命令的不准确性,同理得出第二页的被索引的数量,为了更清晰的表达,下面是一个分类目录页面的下方分页导航条:
修改后效果非常明显,第10页与15页的索引概率明显上升,如下图所示:
SEO讨论
上述实验的因素可能不是那么很全面,但是可以从侧面反映了一些很重要的问题:
1.随着深度增加,索引概率将大大降低,而非常深的页面数量一般是巨大的,索引量的高低严重影响内链的数量。
2.同时可以出来修改分页导航条,在入口页面增加链接,只会增加被链接页面索引的概率,不会该页面临近页面的索引概率,说明这些邻近的页面的深度还是深了,一步之差,索引概率大大降低。
所以对于大量分页的情况,应该尽量减少页面的深度,那就只能增加单页的链接数量,将分页减少到将每个分页的链接都降低到最低, 足够在入口页面放下分页链接,往往一步之差,差别很大。这里只是简单介绍一下,详细的内容可以到:Testing How Crawl Priority Works
。
SEO技术与基础更多阅读
疯狂的多域名富关键词网站优化策略 网络爬虫策略介绍 Google优化排名最重要的五个因素 揭秘Google News排名因素 Google Caffeine搜索结果初探 |
将 本 文收藏到: 365Key