搜索与聚合

郑昀@玩聚SD  20081108

以下是我的一家之言,仅供参考。

引子

   谷歌、百度、雅虎,以及新上线的有道,都在测试更多类型的OneBox。比如在Google里搜素“population of China”,OneBox中会显示“ChinaPopulation: 1,321,851,888 (July 2007 est.)”,这里我们姑且把OneBox模式称为聚合。

   搜索引擎中的聚合,从简单的搜索结果聚合,到简单信息聚合,直至目前的语义聚合,让人看到了整合搜索的曙光。

搜索和聚合是一个事物的两面。

    搜索提供信息参考。聚合则为无目的而来者提供探索路径,为有目的而来者提供条理化知识。二者都需要尽可能地猜测来者目的。

    大家都说搜索往往不知道搜索者所为何来,所以只能千人一面地提供搜索结果。最近Miguel Carrasco建议微软Live Search应该利用好人们在facebook等社区中的身份和活动信息,从而预先掌握用户输入关键词的目的,也就是SNS和Search整合在一起。Google的整合搜索也是如此,都是希望在尽可能多地理解用户的需求之后提供所需要的答案。

    在更了解来者目的之后,揉合在搜索中的聚合将发挥更大传递知识作用。

搜索和聚合合二为一。

    搜索中的聚合,独立出来则可成为一个产品,合进去则成为Google OneBox中所展示的碎片聚合能力。譬如,搜索关键词“李开复”,谷歌搜索结果中,第一页先展现视频搜索结果的OneBox,接下来展示新闻搜索结果。

    大多数网民熟悉的互联网搜索和聚合技术仍然依赖相对简单的模式匹配:将搜索关键字与Web网页上的词汇进行匹配,然后根据一些因素对搜索结果进行排名,例如搜索词汇出现的频率,搜索词汇出现的位置或者是指向具体结果网页的链接数量等等。

    所以,目前百度、雅虎或谷歌的OneBox所展现的信息结构,都还只是信息的搜索结果,或者针对不同领域的数据简单聚合,如搜索股票名称或代码则展示该股票的实时行情。

垂直聚合和语义

    接下来,搜素引擎为了丰富OneBox的聚合,就必须切入每一个垂直领域。

    不同垂直领域特性不同,比如用户可能搜索的是一个饭馆名字(譬如你在谷歌搜索“全聚德烤鸭店 北京”),那么为了更智能地聚合出用户可能需要的信息,而不仅仅是简单罗列地图和联系电话,那么搜索引擎就必须切入这个生活搜索的垂直领域,或者与人合作

    和Google Product Search一样,微软Live Search也早已将它的Product Live Search嵌入到了搜索结果中,只不过缺少了Google Checkout这种在线支付的集成。如果你输入N95G10搜索,你将会看到OneBox中除了产品图片、价格区间、比价等,还出现了产品评论聚合以及打分星级。对于N95手机,列出很多个用户评论分类指标:一般评论、特色、易用性、电池寿命、声音质量等。对于G10相机,则列出画面质量、轻便性和大小指标。这个细节说明垂直做得够深才行。

http://album.hi.csdn.net/app_uploads/zhengyun_ustc/20081111/170718132.p.jpg?d=20081111170756428

    微软Product Live Search的语义特色,在于它自动汇总了这些用户关心指标的评论,并计算了正面负面情感因素,从而可以列出对于Nokia N95手机的电池寿命只有19%的正面评论,定价可承受性只有64%的正面评价等等进一步的统计信息。

    这些,其实就是语义聚合的力量。如何做到呢?

    在语义聚合引擎中,每一个查询都在一些“本体(Ontology)”的上下文范围内执行,来自本体的一些提示信息可以提高搜索的准确性。

    什么是本体呢?简单地说,本体给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的确定词汇外延的有关规则的定义;其目标是捕获相关的领域的知识,提供对该领域知识的共同理解,确定领域内通用的词汇,并给出这些词汇和词汇之间相互关系的明确定义。

    在语义检索中,使用的是概念匹配,即自动抽取文档的概念,加以标引,用户在系统的辅助下选用合适的词语表达自己的信息需求,然后在两者之间执行概念匹配,即匹配在语义上相同、相近、相包含的词语。 
    基于本体的智能聚合引擎的基本设计思想如下:
    (1)在领域专家的帮助下,建立相关领域的本体;
    (2)收集信息源中的数据,并参照已建立的Ontology,把收集来的数据按规定的格式存储在元数据库(关系数据库、知识库等)中:
    (3)对用户检索界面获取的查询请求,查询转换器按照Ontology把查洵请求转换成规定的格式,在Ontology的帮助下从元数据库中匹配出符合条件的数据集合;
    (4)检索的结果经过定制处理后,返回给用户。

    有了这么模型之后,实际上就可以复制到不同垂直领域。在分领域做好之后,可以很容易地嵌入到搜索结果中。当然是在尽可能获知用户目的前提下。玩聚网有一个智能语义聚合应用框架,在股票方面做了一些尝试,比如汇总股评和专家点评,计算看多看空倾向,计算买入卖出建议,也有点这个意思。从这个意义来看,微软收购语义建模能手Powerset,未尝不是给自己的搜索输送炮弹。

    搜索们做了OneBox+垂直聚合,又揉合了语义进去之后,算是能见到整合搜索的曙光,接下来就要看如何整合入SNS等社区所包含的身份信息了,以便更深刻地理解用户随时随刻变化的搜索需求。

郑昀@玩聚SD  20081108

《站长Z周刊》 约稿 链接地址: http://www.chinaz.com/z/

posted @ 2008-11-18 14:44  老兵笔记  阅读(1475)  评论(0编辑  收藏  举报