技术与人文的结晶 ——搜索引擎技术漫谈

技术与人文的结晶

——搜索引擎技术漫谈

康乐



面对浩瀚的信息海洋,人们常常无所适从。而网络搜索引擎的出现,恰似一叶轻舟,载着我们在海洋里随意遨游。搜索引擎很快就成为我们掌握知识的利器。

作为Internet必不可少的工具,搜索引擎的地位越来越高。不仅如此,随着Internet应用的不断加深,搜索引擎正成为举足轻重的网络基础设施。

搜索引擎的基础设施作用体现在三个方面:第一,必不可少。如果没有搜索引擎,全世界一半的网页将没有任何使用价值。第二,涉及面广。搜索引擎技术涉及到系统技术、网络技术、多媒体技术、语言处理技术、人工智能技术等。第三,越来越多的“关注”。专注于搜索引擎的专业厂商不断增加,新的搜索引擎技术不断涌现,搜索引擎的表现形式也多种多样,甚至使用的时候都意识不到它的存在。

技术本质

技术源于需求。需求的多样化导致了技术实现的多样化,而多样化使我们的世界呈现和谐之美。

最早的搜索引擎打破了目录之间的隔阂,只是将结果罗列出来。随后,结果相关度排序、逻辑查询、结果中查询等技术提高了搜索的准确度;文章重要程度排序、用户行为分析技术更加符合用户心理。如今,自然语言理解、智能查询、垂直搜索等技术使搜索变得更简单、更有价值,也更吸引用户。

需求的差异导致技术应用的差异,而差异化正是新产品立足的根本。对需求的细分以及不同的技术手段,形成了搜索引擎产品百花齐放的局面。

传统与现代

即使没有Internet,搜索引擎也存在并发挥着作用,例如在情报检索、图书检索、新闻出版等传统领域的应用,搜索范围也从简单文本到大容量数据库不断发展,搜索技术也从关键词查找到全文检索不断进步。

迅速发展的Internet改变了一切,新的网络搜索引擎比传统搜索引擎有了质的飞跃。在数据量上,传统搜索引擎面对的是增长缓慢的、有限的数据(几万、几十万的量是最常见的),但是网络搜索引擎面对的是快速增长的、几乎无限的数据。Google已经可以搜索20亿个页面。量的变化带来了质的变化。

传统搜索引擎技术用到的算法面对海量数据变得非常笨拙;传统搜索引擎技术用到的数据结构,面对海量数据时已经无法表示;传统搜索引擎主要用于单机结构,而网络搜索引擎则在分布式环境中工作。因此,现代的网络搜索引擎技术已同传统的搜索引擎技术在算法、计算环境、理论模型等方面有了根本的不同。各种综合技术的运用及人性关怀使得网络搜索引擎技术上升到了一个新高度。

即使有飞跃,即使有不同,但现代搜索引擎与传统搜索引擎都有共同的目标,就是查全与查准,只不过新的时代环境为新技术赋予了更多的内涵。从结构上看,传统搜索引擎主要有索引与查询两部分,而现代搜索引擎主要有搜集(Robot或Spider的作用)、索引、查询及结果处理四部分。从核心技术上,现代搜索引擎也离不开传统的索引、分词等技术。传统搜索引擎技术的进展很快会应用在现代搜索引擎技术之中,现代搜索引擎的技术发展思路也大大促进了传统技术的深入开发。一种新技术融入搜索引擎技术,一种新的搜索引擎便会诞生。

随着时代的发展,传统技术在新的环境下会突然发挥它的新作用,成为一种新技术,就像几十年前的衣服式样会在明天成为时尚一样。

Internet最初的目录分类简直称不上“技术”,因为它们太“人工”了。但是几次轮回之后,还会有很多的人对目录分类有着更多的需求,对“人工”有着更高的要求,因为虽然是人工,但人工知识更有价值,将会产生知识经济时代的“知识工人”。

综合技术

时代在发展,新的需求不断产生,促使技术的不断产生与融合。

现代搜索引擎技术要用到信息检索、数据库、数据挖掘、系统技术、多媒体、人工智能、计算机网络、分布式处理、数字图书馆、自然语言处理等许多领域的理论和技术,成为一种综合性的技术。

从搜集过程来看,超链分析是一个核心技术,面对无限宽广的互联网,如何获得所需链接、索引链接 都需要很多的考虑,而链接背后的“价值”分析更是充满了智慧,这种分析就是海量数据中的挖掘技术。相对于广泛的静态网页,动态网页所包含的信息更有价值,但是种类繁多且不断发展的动态网页技术(如ASP、JSP、CGI等)再加上复杂的网络环境,使搜集过程变得繁重异常。

从索引过程来看,网络搜索引擎不仅要用到传统搜索引擎技术,而且还要用到数据库技术、网页缓存技术、多媒体技术、分布式存储与计算技术,除了索引网页,还要索引各种媒体,包括文字、动画、音频、视频及其他特殊文件(PDF、XML等)。

查询在技术上是索引的逆过程,索引就是为了查询。但是查询还要用到用户输入技术、代理技术、分词技术、自然语言处理技术等。这些技术的运用使得索引的价值得以体现,也使得搜索引擎在用户面前显得更简单、更有用。

将最好的查询结果呈现给用户是搜索引擎的最终目标。结果排序总的来说是相关度排序技术,还要用到去除重复网页、用户行为分析等技术,也可能用缓存技术为用户提供过期的网页。

以上是从网络搜索引擎的四个组成部分来说明的。实际上,为了保证搜索引擎平稳运行,还有诸如系统技术、分布式技术等在支撑它的运行,例如集群技术、网络缓存技术、分发技术等。更重要的是,网络搜索引擎为了体现人性关怀,在人机界面上要用到智能化技术与个性化技术。

其他领域的技术必然会带动搜索引擎技术的发展。新的标准、新的应用也促进着现代搜索引擎的发展。例如XML的出现及广泛使用,搜索引擎必将提供完全的支持。P2P及网格计算的发展也会使搜索引擎拥有更多的应用。

用户至上

各种技术层出不穷,技术的发展永无止境,但永远没有纯粹的技术。过分的商业化使得技术一度偏离它的本质。当企业大声呼喊“以客户为中心”的时候,技术也回到了它的本质。

什么是最好的搜索引擎技术?

用户满意是第一层次。用户使用搜索引擎的直接目的是找到其所需要的信息,搜索引擎只要做到“查全”与“查准”,就能让用户基本满意。如果再将结果优化,使其对用户来说更加有效,那么用户对这个搜索引擎就会有很高的忠诚度。对用户来说,技术无所谓高低,达到目标就行,技术从低到高不断改进、不断满足需求就会使用户满意。

用户快乐是第二层次。技术源于需求,也满足了用户的需求,如果技术能挖掘出用户需求背后的需求或用户自己想不到的需求并实现它们,用户就能充分享受到技术带来的快乐。当搜索引擎不光给用户搜索结果,而且给了他最“权威”的结果最感兴趣的结果时,他是快乐的。在知识经济的大潮中,当每一次搜索都能满足他“学习”知识的渴望时,他是快乐的。

但是,技术本身不能实现自我。没有资金,技术就不能实践。为了搜集更多的网页、提供更快的速度,搜索引擎需要近万台服务器,资金暂时限制了技术的发挥。没有市场,再好的技术都会被人抛弃。这时,恰当的商业化会推动技术的发展。例如,搜索引擎中的广告、竞价排名等商业技术运用,丰富了搜索引擎,满足了部分用户的需求。但是赤裸裸的商业化也会使用户走开。因此,在技术的实现过程中,用户至上的策略是最好的技术策略。

发展与未来

Internet使得技术的发展日新月异。处在知识经济基础设施地位的搜索引擎必将得到更多的重视与发展,搜索引擎技术充满着机遇与挑战。

“以用户为中心”是不变的宗旨。为了满足用户需求,用户细分是关键。行业用户、企业用户、个人用户有着不同的需求。行业用户需要搜索引擎联接一个个信息孤岛,实现专业化的信息共享。企业用户在成为“学习型企业”时对知识管理有更高的要求,搜索引擎的作用将会十分突出。虽然个人需求也各不相同,但个人用户面对巨大的Internet时,都需要一把打开大门的钥匙,而搜索引擎就是一把金光闪闪的钥匙,能满足人们“学习”的渴望。因而“知识性”便成为搜索引擎技术的关键。

在搜索引擎的发展方向上,一方面是追求质量,另一方面是模式取胜。人们对质量的追求总是无穷无尽,新的搜索引擎技术将会“更快”——更新快、速度快;“更大”——数据容量更大;“更强”——智能化、结果更让人满意。新事物总有无可匹敌的优势。模式取胜关键在于发掘需求、细分需求,满足人的深层次的需求,例如各种多媒体的专向搜索、各种专业的垂直搜索都会有广阔的市场。

更多新技术的应用与融合,如无线网络、P2P等,更会给搜索引擎技术带来新的动力。搜索引擎技术将会有一个美好的未来。

(计算机世界报 第25期 B10、B11)

 

 转于:http://www2.ccw.com.cn/02/0225/b/0225b03_1.asp

 

 

 


posted @ 2009-09-12 18:39  搜源网  阅读(152)  评论(0编辑  收藏  举报