搜索引擎如何判断页面是否已经收录

      搜索引擎如何判断某个页面是否已经收录过?相信这个问题困惑过许多朋友。很多做SEO的朋友也想弄明白这个问题,当然很多SEO老手都已经知道了。这里我再唠叨几句。主要是介绍给新人解释下这个问题

 

      如果理解HTTP协议的话,对于这个问题就很容易理解了,因为搜索引擎判断是否已收录的算法和浏览器加载网页时判断页面是否已更新是基于的类似原理的:

 

      我们每次通过浏览器打开一个新的网页的时候,客户端都会向网站服务器端发送一个HTTP请求,而我们看到的网页的结果就是服务器返回的内容经过浏览器的编译后的结果。同时,返回的信息中还有一些信息是我们在页面上不能直接看到的。

 

      正常情况下,HTTP头部文件返回的是200的HTTP状态代码,然后就将这个网页的代码存储到我们本地的电脑里面,这个时候会记录一个时间的信息,当我们按下F5刷 新下页面的时候,浏览器会发送一个叫 If-Modified-Since的报头,如果服务器端的这个页面在所记录的时间到刷新结束的时候还是没有更 新的话,那么他会返回一个叫304的HTTP状态代码。表示该页面没有更新,浏览器只需要读取缓存即可。


      而搜索引擎也是靠这个机理来工作的,我们本地的缓存就可以理解为搜索引擎的网页快照,搜索引擎每次通过网页快照来对比我们网站发送的HTTP状态代码,如果是200那就表示网页上有新的内容了,如果是304,搜索引擎就直接走掉了。继续去F5其他的页面,这样快速的发送 if-modified-since报头,快速的查看返回的HTTP状态代码,就可以识别互联网上那些页面更新了,那些页面没有更新。

 

      所以,你现在理解搜索引擎如何判断页面是否已经收录了吧?   

posted @ 2011-12-29 13:10  Bobby的数据分析之路  阅读(548)  评论(0编辑  收藏  举报