万维网的信息检索系统【计算机网络】
1.全文检索搜索与分类目录搜索
万维网是一个大规模的、联机式的信息储藏所。那么,应当采用什么方法才能找到所需的信息呢?如果已经知道存放该信息的网点,那么只要在浏览器的地址(Location)框内键入该网点的URL和回车键,就可进入该网点。但是,若不知道要找的信息在何网点,那就要使用万维网的搜索工具。
在万维网中用来进行搜索的工具叫做搜索引擎(search engine)。搜索引擎的种类很多,但大体上可划分为两大类,即全文检索搜索引擎和分类目录搜索引擎。
全文检索搜索引擎是一种纯技术型的检索工具。它的工作原理是通过搜索软件(例如一种叫做“蜘蛛”或“网络机器人”的Spider程序)到因特网上的各网站收集信息,找到一个网站后可以从这个网站再链接到另一个网站,像蜘蛛爬行一样。然后按照一定的规则建立一个很大的在线数据库供用户查询。用户在查询时只要输入关键词,就从己经建立的索引数据库上进行查询(并不是实时地在因特网上检索到的信息)。因此很可能有些查到的信息己经是过时的。建立这种索引数据库的网站必须定期对已建立的数据库进行更新维护。现在最出名的全文检索搜索引擎就是Google(谷歌)网站(www.google.com),它搜集的网页数量超过80亿个,图片超过10亿个,在整个搜索引擎市场中占有的份额超过50%。我们接着将介绍Google搜索技术的特点。在中文搜索引擎中,最出名的是百度网站(www.baidu.com) 。
分类目录搜索引擎并不采集网站的任何信息,而是利用各网站向搜索引擎提交的网站信息时填写的关键词和网站描述等信息,经过人工审核编辑后,如果认为符合网站登录的条件,则输入到分类目录的数据库中,供网上用户查询。因此,分类目录搜索也叫做分类网站搜索。分类目录的好处就是用户可根据网站设计好的目录有针对性地逐级查询所需要的信息,查询时不需要使用关键词,只需要按照分类(先找大类,再找下面的小类),因而查询的准确性较好。但分类目录查询的结果并不是具体的页面,而是被收录网站主页的URL地址,因而所得到的内容就比较有限。相比之下,全文检索可以检索出大量的信息(一次检索的结果是几百万条,甚至是千万条以上),但缺点是查询结果不够准确,往往是罗列出了海量的信息(如上千万个页面),使用户无法迅速找到所需的信息。在分类目录搜索引擎中最著名的就是雅虎(www.yahoo.com)。国内著名的分类搜索引擎有雅虎中国(cn.yahoo.com)、新浪(www.sina.com)、搜狐(www.sohu.com)、网易(www.163.com)等。
从用户的角度看,使用这两种不同的搜索引擎都能够实现自己查询信息的目的。但用户得到的信息的形式并不一样。全文检索搜索引擎往往可直接检索到相关内容的网页,但分类目录搜索引擎一般只能检索到相关信息的网址。为了使用户能够更加方便地搜索到有用信息,目前许多网站往往同时具有全文检索搜索和分类目录搜索的功能。在因特网上搜索信息需要经验的积累,要多实践才能掌握从因特网获取信息的技巧。
值得注意的是,目前出现了垂直搜索引擎(Vertical Search Engine),它针对某一特点领域、特定人群或某一特点需求提供搜索服务。垂直搜索也是提供关键字来进行搜索的,但被放到了一个行业知识的上下文中,返回的结果更倾向于信息、消息、条目等。例如,对买房的人讲,他希望查找的是房子的具体供求信息(如面积、地点、价格等),而不是有关房子供求的一般性的论文或新闻、政策等。目前热门的垂直搜索行业有:购物、旅游、汽车、求职、房产、交友等行业。还有一种元搜索引擎(Meta Search Engine),它把用户提交的检索请求发送到多个独立的搜索引擎上去搜索,并把检索结果集中统一处理,以统一的格式提供给用户,因此是搜索引擎之上的搜索引擎。它的主要精力放在提高搜索速度、智能化处理搜索结果、个性化搜索功能的设置和用户检索界面的友好性上。元搜索引擎的查全率和查准率都比较高。
2. Google搜索技术的特点
Google的搜索引擎性能优良,因为它使用了先进的硬件和软件。以往的大多数的搜索引擎是使用少量大型服务器。在访问高峰期,搜索的速度就会明显减慢。Google则利用在因特网上相互链接的PC来快速查找每个搜索的答案,并且成功地缩短了查找的相应时间。Google的搜索软件可同时进行许多运算,它的核心技术就是PageRank,译为网页排名。 PageRank对搜索出来的结果按重要性进行排序,这是Google的两个创始人Larry Page和Sergey Brin共同开发出来的「W-GOGGLE]。由于用户在有限的时间内,不可能阅读全部的搜索结果(因为数量往往非常大),而通常仅仅是查阅一下前几个(或前几十个)项目。因此用户希望检索结果能够按重要性来排序。但怎样确定某个页面的重要性呢?传统的搜索引擎往往是检查关键字在网页上出现的频率。PageRank技术则把整个互联网当作了一个整体对待,检查整个网络链接的结构,并确定哪些网页重要性最高。更具体些,就是如果有很多网站上的链接都指向页面A,那么页面A就比较重要。PageRank对链接的数目进行加权统计一。对来自重要网站的链接,其权重也较大。统计链接数目的问题是一个二维矩阵相乘的问题,从理沦上讲,这种二维矩阵的元素数是网页数目的平方。对于1亿个网页,这个矩阵就有1亿亿个元素。这样大的矩阵相乘,计算量是非常大的。Larry Page和Sergey Brin两人利用稀疏矩阵计算的技巧,大大的简化了计算量。他们用迭代的方法解决了这个问题。他们先假定所有网页的排名是相同的,并且根据此初始值,算出各个网页的第一次迭代排名,再根据第一次迭代排名算出第二次的排名。他们从理论上证明了不论初始值如何选取,这种算法都保证了网页排名的估计值能收敛到排名的真实值。这种算法是完全没有任何人工干预,厂商不可能用金钱购买网页的排名。Google还要进行超文本匹配分析,以确定哪些网页与正在执行的特定搜索相关。在综合考虑整体重要性以及与特定查询的相关性之后,Google就把最相关、最可靠的搜索结果放在首位。
参考资料:《计算机网络》 第六版 谢希仁