Lei's Blog

关注机器学习、信息检索、数据挖掘和推荐系统等研究领域

  :: 首页 :: 博问 :: 闪存 :: 新随笔 :: :: 订阅 订阅 :: 管理 ::

         本次会议共邀请到了18名专家学者做了精彩的报告,其中包括7场来自企业的业界技术挑战报告。报告的主题涉及了计算广告学、主动信息检索/推荐系统、在线社区挖掘、跨语言检索、查询匹配、数据结果的可视化、信息检索模型等方面。以下是一些我们比较感兴趣内容:

一、 跨语言信息检索

来自加拿大蒙特利尔大学的聂建云教授首先从直观的角度提出在跨语言检索中(CLIR)的一些方法和模型可以用于解决在单语言检索(general IR)中遇到的句子结构理解和多种表达方式等问题,然后介绍了目前CLIR中一些方法的优缺点,如,基于机器翻译 (MT)、双语词典和Parallel texts的方法,最后讨论了如何将CLIR中一些方法应用到单语言检索中。具体如下:

第一,MT(Machine Translation),由于缺乏上下文信息、逐字翻译、人名或者新兴词语(例如,给力)的出现,会导致机器翻译的结果不准确,不能正确理解用户的查询意图。另外,对所有的语言对(language pairs)都进行翻译也是不可行的,并且机器翻译系统更多的是作为一个黑盒子,很难去适应多变的IR检索任务。

第二,使用双语词典,存在的问题:每个单词对应好几种翻译,如何让多个单词的翻译组合使得句子翻译的结果更加准确?1)先翻译词组在翻译单个单词,结合上下文信息进行翻译。2)对所有排列组合的候选结果,选择一个产生最大内聚度的结果(highest cohesion)

第三,使用并行语料库训练翻译模型(using parallel texts),通过使用并行语料训练一个翻译模型(例如,IBM1),使用那些共现概率较高的词进行翻译。

第四,将CLIR中的一些方法用于(general)IR,来提高单语言检索的效果。从(general)IR中我们知道原始的查询往往不能表达查询的真实目的,也就是查询和文档之前存在语义鸿沟,或者说是查询与文档分别使用了两种不同的词典。因此,我们可以将这其看作是多语言检索的问题,并使用CLIR中的方法进行求解。

二、Web检索中的查询匹配

来自华为诺亚方舟实验室的李航博士指出,在目前的Web搜索技术中自然语言理解是当前所面临的最大挑战,也就是查询与文档往往不能很好的匹配。已有的研究方法可以根据匹配的语义程度分为term, phrase, word sense, topic, structure等五个不同的等级,并且我们可以从graph, matrix, space三种不同视角来看待这个问题,从而可以得到三种不同解决方法。

最近的研究工作,主要集中在如何在隐空间中对查询与文档进行的匹配,也就是同时将查询与文档映射到一个隐空间中,然后在这个隐空间中对查询和文档进行匹配。解决方法包括偏最小二乘法和正则化映射方法等。最后李航博士还介绍了一个由微软亚洲研究院公开发布的数据集QRU-1(http://bit.ly/qru1dataset),该数据集适用于研究query transformation问题。

三、 结合在线社区进行检索和挖掘

来自Michigan大学的梅俏竹博士介绍了将检索和挖掘的方法同在线社区进行结合的方法。他们最近的工作为我们提供了一种研究社会网络的新思路。他指出,我们至少可以将四种信息,从三个层次将传统的方法同社会网络的信息相整合。

这四种信息包括Content(blogs ,tweet,Topic), Context(user entiment,time,location), Crowd(Social network, behaviors), Cloud (Integrated community model),也就是他所说的Foreseer(4C)。

三种不同整合的层次包括:

第一,Data/model层次,也就是将文本、上下文、用户行为等信息与网络的结构信息相结合,例如,加入网络结构信息的话题发现方法、事件检测方法和话题传播、演化方法。

第二,Perspectives层次,也就是从不同的角度来看待网络的信息。例如,Twitter中hashtag,从内容的角度来看它属于一种内容标签,但如果从社区的角度来看,它则是一种社区的标签,将具有相同兴趣或参加某个共同活动的人组织在一起。

第三,Principles/ Investigators层次,也就是从理论层面来看,具有不同理论背景的研究者是如何在一起进行研究的。例如,Kiva中的借贷问题,为什么会有那么多人会愿意在没有利息的情况愿意借钱给别人,具有不同理论背景的人研究的方法是不同的(经济学家vs. 数据挖掘者),如何同不同领域的学者进行合作共同研究是该层次关心的主要问题。

四、主动信息检索

来自UCSC的张弈介绍了她们在主动信息检索方面的一些工作。推荐系统作为主动信息检索的一个特例,近年来得到了广泛的关注。在目前的研究中主要面临如下几个方面的问题:

第一,what to recommend?

在这一部分主要讲了如何将除评分矩阵以外的多维数据、上下文加入到推荐方法中来。这些上下文信息包括位置、身份、用户的状态、职业、时间、用户活动等。张弈等人分别从生成模型和判别模型的角度提出了两种不同的解决方法。

第二,when to recommend?

在这一部分主要提出推荐的时机很重要,重复推荐并不能取得较好的结果,并且基于评分的推荐系统对于用户购买来说并不是一个好的评价方式。张弈等人提出可以使用经济学中的净边际效用( Marginal Net Utility)来衡量推荐结果的好坏。通过用户的购买历史来学习一个效用函数,给用户推荐那些边际效用函数大的产品。

第三,how to recommend?

报告中指出,应当通过设计好的反馈机制来获取用户的真正兴趣,引导用户走向正确的方向。另外就是需要同用户建立良好的信任关系,并且帮助用户理解怎样才能对他们最有利。

总的来说,参加本次会议让我们感觉受益非浅,学习到了很多前沿的知识和研究方法,特别是推荐系统、在线社区等主题报告使我们对这类问题的研究有了新的认识和思考。另外,我们也接触到了许多没有见过的新知识,例如,Multi-Armed Bandits、Multiple rating等问题既开拓了我们的视野,也让我们同时认识到了自身知识结构的不完整。

posted on 2012-06-27 16:54  Lei-Blog  阅读(547)  评论(0编辑  收藏  举报