搜索引擎的技术问题(未完待续)
搜索引擎的技术奥秘
搜索引擎————
在世界上最大的草垛中寻针
搜索引擎已经发展成为每个人上网都离不开的重要工具,但是为何搜索引擎有着如此重要的地位?其技术发展历程是怎样的?其基本目标是什么?核心问题是什么?基本技术架构如何?本文将做尽可能详细的分析与讲解。
搜索引擎提供着超级服务,每个大型的搜索引擎公司都运营者一个由有无数数据中心组成的国际网络,其中包括数以千计的服务器计算机和先进的网络设备。但是如果没有聪明的算法来组织和检索我们请求的信息,所有的硬件都会变得毫无用途。
搜索引擎的两大主要任务是:匹配和排名。
网络搜索的两个阶段匹配和排名,在第一阶段(匹配)后可能会出现数千或数百万个匹配结果,这些结果必须按照相关度在第二阶段(排名)进行排序。搜索引擎会从大量命中里挑出最好的几个,一个好的搜索引擎不仅会挑出最好的几个,而且还会以最有用的顺序显示它们——最匹配的页面排在第一,然后是匹配度排名第二的,以此类推。
下面介绍一下相关商业引擎公司的发展,1995年是商业搜索引擎公司发展的重要起点,背景是:互联网上的Web站点数量首次超过100万,此时的普通用户无法依赖手工浏览的方式来快速获得自己想要的信息。这一年产生了很多曾经风云一时的早期搜索引擎公司。Yahoo、InfoSeek、Fast Search、Alta Vista、Excite等曾经非常著名的搜索引擎公司都创建于1995年。
当初刚刚成立时的Yahoo依靠人工编辑导航目录,将互联网上重要的站点分门别类的整理好,满足人们查找重要网站的需求应时代的需求,从而快速成长为最著名的搜索和门户网站。
搜索引擎技术的发展史可以大致分为这样几代:分类目录à文本检索à链接分析à用户分析。
搜索引擎的3个目标:更全、更快、更准。
搜索引擎的3个核心问题:
1.用户的真正需求是什么 根据数据调查用户输入的查询请求平均长度只有2.7的单词,要从如此短的请求里获知用户的真正需求,这是搜索引擎首先要解决的并且非常重要的问题。即是需要弄懂用户它们搜索的真正意图是什么。
2.哪些信息是和用户需求真正相关的 从数据角度考虑,搜索引擎本质上是一个匹配过程,即从海量的数据里面找到能够匹配用户需求的内容。判断内容和用户查询关键词的相关性一直是信息检索领域的核心研究课题。
3.哪些信息是用户可以信赖的 搜索到的信息是否值得信赖又是另外一个重要的衡量标准。网上发布的信息对象会是由任意用户发布,内容可信与否并无判断标准,也存在恶意的发布信息的情况。在同一个查询的搜索结果内,完全可能存在相互矛盾的搜索答案,此时信息的可信性即成为突出问题。