肖玉强:图解搜索引擎工作原理
做SEO的,如果不懂搜索引擎的工作原理是很难恰当开展工作的。前几天给学生讲SEO课程中的搜索引擎工作原理时,很多同学表示不太懂。后来我画了搜索引擎主要工作流程的示意图给大家,很多同学表示“懂了”。
我们先来看搜索引擎的主要工作:页面收录、页面分析、页面排序及关键字查询。搜索引擎的工作流程是:页面收录——页面分析——页面排序——关键字查询。
一、搜索引擎工作原理——页面收录
搜索引擎工作原理示意图——页面收录流程
页面收录的最终目的是将网站上的内容加入到URL列表,积累URL资源。
第一步:搜索引擎的爬行程序(俗称蜘蛛)发现网站,来到网站上。也就是说网站首先要存在,且能够被蜘蛛发现。比如济南seo肖玉强的博客如果要被搜索引擎收录,首先要存在而且要有内容。
第二步:蜘蛛开始对入口页面进行抓取,并存储入口的原始页面,包含页面的抓取时间、URL、最后修改时间等。存储原始页面的目的是为了下次到来比对页面是否有更新,蜘蛛喜欢经常更新的网站。
第三步:提取URL,提取URl包含两个两个内容:域名URL和内部URL。域名URL即网站首页地址,如www.***.com;内部URL即网站内部各页面的地址,如http://www.***.com/151.html。蜘蛛所提取到的URL资源会持续添加到URL列表。
二、搜索引擎工作原理——页面分析
在页面收录中,搜索引擎已经抓取到了网站上的URL,接下来,搜索引擎会对所抓取到的页面内容进行分析。
搜索引擎工作原理示意图-页面分析流程
在这个过程中,我们看到了两个“网页”。第一个“网页”指的是刚才搜索引擎已经收录的URL资源。好,搜索引擎对页面的分析正式开始。
第一步:提取正文信息。这里所提取的正文信息除了包含页面内容外,也包含页面的头部标签信息(title\keywords\descrption)等。
第二步:提取完信息后,搜索引擎按照机械分词法和统计分词法,将正文信息切分为若干关键词,这些关键词组成了关键词列表。我们大家在搜索引擎里查找内容时往往会输入关键词查找,这里搜索引擎的工作就是按照一定的规则将内容划分为词,以便以后大家搜索。
第三步:上一步搜索引擎已经将正文内容切分为了若干关键词,这些关键词出现的位置、频率等是不同的,在第三步,搜索引擎会将关键词逐一记录、归类、建立索引。比如,关键词出现的频率我们建议2%——8%是最为合理的,那么搜索引擎在给关键词归类时,会认为符合2%——8%的关键词是网页的主关键词,从而在接下来的页面排序时给予照顾。
第四步:搜索引擎为页面关键词建立索引后,再将这些关键词重新组合,以关键词的形式重新组建一个新的网页,这个网页上的关键词是唯一的,全部不重复。比如,我们刚才在第三步时,A关键词出现了三次,在第四步,我们只记录A关键词1次,在重组后的网页后,A关键词再无重复。
至此,搜索引擎对页面的分析完成,在这一环节,搜索引擎完成了对页面正文信息的提取、关键词的切分、关键词的索引、以及搜索引擎角度上的网页重组。
三、搜索引擎工作原理——页面排序
在上面一个环节,搜索引擎完成了对页面的分析,将页面以唯一关键词的形式进行了重新组合。接下来开始进入到页面排序的环节。页面排序的环节,实际上是由用户配合来完成的。当用户在搜索引擎输入关键词进行查询时,搜索引擎便开始了页面排序的的工作。我们知道,任意输入一个关键词就可以在搜索引擎中找到很多网页,这些网页的先后顺序是怎样产生的?影响页面排序的因素有哪些?
实际上,决定页面排序的因素很多,如关键词、页面相关性、链接权重及用户行为。
1、先来看关键词。
a、 关键词匹配度。我们注意到在全文搜索引擎中,一般情况下搜索引擎列表中都会包含我们所输入的关键词。当我们输入关键词进行查询时,搜索引擎首先会去检查网页中是否有该关键词,这是基础条件。
b、 接下来,搜索引擎会去比对页面中关键词出现的频率,过高或者过低都不好,最恰当的频率一般认为是2%——8%左右。
C、关键词分布。即关键字在页面中出现的位置也会影响页面的排序。一般认为页面权重的递减顺序是左上>右上>左>右>左下>右下。
d、关键词的权重标签。权重,可以理解为重要性。权重标签如< b >、< i >、< em >、< h1 >—< h6 >等等这些标签使得标签内文字不同于其他文字,搜索引擎会给予相应权重提升。
2、链接权重
内部链接。网站内部页面之间的链接关系,一般首页的权重最高。在同等情况下,如果有两个网站的首页和内页进行比较,一般首页会排在内页前面。
外部链接。网站与站外页面之间的链接关系,通俗的说法叫做“外链”。外链的数量、质量、相关性都会影响页面排序。在页面相关性上,google比baidu更为严格,比如,你的网站是做IT的,结果你去链接了很多机械化工类的网站,这时候搜索引擎会很不喜欢,甚至会认为你恶意添加外部链接。
默认权重分配。搜索引擎将页面被抓取的日期作为一个参考因素,页面在单位时间内获得链接的数量越多,质量越高,则该页面的质量也相对更高。
3、用户行为
用户对搜索结果的点击行为是衡量页面相关性的因素之一,是完善排序结果、提高排序结果质量的重要补充。
四、搜索引擎工作原理——关键词查询
搜索引擎工作原理——关键词查询
第一步:用户输入关键词进行查询。
第二步:搜索引擎接到用户关键词指令,将用户的关键词再次切分。有同学问为什么还要切分呢?这是因为用户所输入的关键词可能会和搜索引擎词典里的关键词不符合,这时候搜索引擎会将用户的词再次切分,尤其是长尾关键词。如用户搜索:肖玉强的博客。这个词搜索引擎词典里是没有的,那么这个词会被切分为“肖玉强”“的”“博客”三个词之后再去网页资源中进行匹配。
第三步:搜索引擎将关键词切分后,进入网页资源中进行匹配,查询合适内容,即“关键词反向索引表”。如果网页资源中有对应关键词,则进行页面分析,按照页面权重进行网页排序。如果没有对应关键词,则返回给客户一个“空列表”。比如“很抱歉,没有找到你要查询的内容”。
整个搜索引擎的工作过程,我们可以以做饭举例。比如我们现在要做西红柿炒鸡蛋,接下来开始。
第一步,西红柿和鸡蛋,以及配料要有,这里对应页面收录;
第二步,有了西红柿、鸡蛋、配料,接下来我们要分析一下做菜的顺序,是先放油呢还是先放鸡蛋再放油呢?还是放了西红柿鸡蛋再放油呢?对这个项目进行分析,即搜索引擎工作的第二步:页面分析;
第三步页面排序,分析好了这个菜怎么做,接下来要动手了,先刷锅热锅,再放油,再继续……这是个合理的顺序,先做什么,后做什么。
第四步:菜做好了,上桌了,你可能会选择先吃鸡蛋,也可能会先吃西红柿,哈哈,这就对应了关键词查询。如果你要在西红柿鸡蛋里找块肉吃,抱歉,没有,这就是关键词的空列表了。
对于例子,请酌情参考。明白了搜索引擎的工作原理就好了。
我的QQ:2284939775,欢迎交流。
本文首发:肖玉强的博客http://www.xiaoyuqiang.com/151.html 专注济南SEO研究。转载请注明出处。
posted on 2012-11-09 14:50 ellisonDon 阅读(430) 评论(0) 编辑 收藏 举报