克丽观察:第三代搜索现形
什么是第三代搜索
第三代搜索引擎和第一、二代搜索引擎的区别在哪里呢?这是我在高潮还没打开他的笔记本前向他提出的第一个问题。
高潮认为,第一代搜索引擎采用了反向索引技术,主要是以搜索关键词的方式来实现搜索的。但由于网站狂起,多得让第一代搜索引擎感到乏力,因此第二代搜索引擎采用了关键词加网站链接分析的方式实现搜索。而第三代搜索引擎则是基于句子、短语的内容搜索。这几乎是一个穷尽搜索需求的境界。也就是说不可能再产生第四代搜索技术了。
第三代搜索技术态势如何
据高潮介绍,包括Google、微软以及许多专业搜索公司,对第三代搜索引擎相关技术、产品的研制都处于正在进行时,目前尚无成功产品,更不用说商品。
一个叫Senopy的公司,他们正在使用自然语言研制搜索引擎,但速度慢到了让用户难以忍受的地步(一般用户的等待时间约在秒级)。还有一个叫Trovix.com的公司研制的基于内容的搜索引擎需在离线状态实现,典型的应用案例就是搜索与工作岗位需求对应的找工作人的简历。而高潮则发现将成熟的基因排序技术和可变长度、可变间隔技术切入搜索引擎,可将基于内容的搜索智能化,并且速度提高千倍。
基因与中文有共同处
基因由4个核酸和蛋白质、20个氨基酸组织排序而成,中间无间隔,而中文的词与词之间也无间隔(英文的单词与单词之间有间隔)。要基于短语、句子内容搜索,就要准确地识别句子的可变长度和可变间隔,后者的识别难度更大。如:“中文和服装是两个不同的话题”这句话可能理解为中文、和服装(日本传统服装)是两个不同的话题。而英文的可变间隔则可用已有的分词实现:I like movies和I like action movies very much。我喜欢电影和我非常喜欢功夫电影,这两个句子充分表现了可变长度和可变间隔的分词。
高潮为什么使第三代搜索快
高潮的第三代搜索为什么会快于传统搜索千倍呢?这是基于一个算法:
如10!=36288002>>2*(10/2)!=240,后者显然比前者小1000倍以上。
这不是很容易模仿吗?不,高潮说,如果做不到可变间隔识别,就完不成基于短语、句子的快速内容搜索。
传统的搜索引擎算法是把关键词作为向量坐标,而第三代搜索则是把短语和句子作为向量坐标。
高潮需要合作伙伴
看了高潮的搜索演示后,觉得前面的介绍并不是嘴上、纸上谈兵,他的搜索不仅快,而且完全基于短语、句子的内容。
如果第三代搜索引擎完全商品化,所有的搜索就变成了电脑与人无障碍的交流和对话,科幻小说改编成的电影里表现过的一切成为了现实,整个社会
所有一切都会改变。可以说高潮在研究把电脑变成人脑的过程中产生了副业——第三代搜索引撑。
结束语
做了21年记者,我第一次写搜索引擎,我深知有些技术问题没写明白,可我知道有好多读者看得比我明白。
posted on 2006-07-26 22:52 ............. 阅读(192) 评论(0) 编辑 收藏 举报