管学术搜索仍然被视为受众群很小的服务,基本还局限于网民金字塔尖上的极少数用户,但是各大IT巨头在学术搜索方面的竞争已经白热化,被视为“阳春白雪”的学术搜索引擎逐渐成为新一代搜索引擎的一个重要发展方向,个性化和智能化是其发展趋势,个人觉得以下两个方面会是该领域中亟待解决的问题:

1. Name disambiguation 

 

   中国和外国人名都存在很多重名,人名消歧是一大难点,尤其是中文的人名消歧更具有挑战性。我想大家已经受够了搜索“XX”时出来一堆来自天南海北各行各业的“XX”了,如果搜索引擎能够按照现实中的不同实体将搜索结果分类那该是多惬意的事,在学术搜索中亦是如此,比如有太多的Professors叫“Dan(Dan Klein,Dan Grossman”等等),在Google Scholar中搜索“articles written by Dan”会得到近30万条结果。目前基于社会网络的人名消歧取得了不错的效果,关键在于如何对社会网络中的人名进行聚类,而在学术搜索中,各成员的自我中心网络可以很容易较准确地构建起来,因为可以充分利用数据库中每个条目的研究领域(论文标题)、论文发表情况(特定杂志或期刊)、合作者等信息,并且一般来说这些信息都会相对稳定。比如上面的例子中“Dan Klein”主要研究natural language information,论文主要发表在ACLNAACL等杂志上,而“Dan Grossman”主要研究programming languages,论文主要发表在ACM的相关会议上,他们也都分别有自己合作较多的co-author,由此即可对搜索结果进行一个初步的类别划分,然后根据不同类别之间的相关程度构建带权值的社会网络图,在此图上采用图分割的算法来实现图聚类。如果搜索引擎能够自动根据这些信息将搜索结果进行分类,就可以极大方便用户查找感兴趣的信息。

 

2. Recommender system

   推荐系统正在进入一个快速发展时代,“We are leaving the age of information and entering the age of recommendation(Chris Anderson in The Long Tail),在学术搜索平台中引入推荐的功能拥有诱人的前景。相比于各种焦头烂额于如何判断用户兴趣癖好的购物网站(Amazon.com, CDNow.com),学术搜索平台有着自己天然的优势,因为一个人在学术上的偏好相比于其他方面往往会更加纯粹。就像你很难仅仅凭借他买了几双Adidas鞋子判断出一个人的兴趣,可是如果他在CVPR或者ICCV上发了几篇文章,基本就可以断定他是CS的,而且主要是做computer vision, machine learning方向的,他的学术圈子基本就定了,而经常看CVPR或者ICCV paper的人当然也会跟此有着千丝万缕的联系(当然我们并不否认有人有着极为广泛的研究兴趣,几乎看遍所有的顶级期刊、杂志),如果能够充分利用这些信息就可以为用户提供个性化的服务。每个用户用自己的ID登陆,系统记录其所有的搜索信息历史,分析用户兴趣,然后结合数据库中各个条目之间的联系,根据基于内容的推荐即可直接向用户推荐一些他可能感兴趣的条目,比如他最常关注的会议或者期刊的最新paper、最常搜索的关键词相关领域的教授等,或者根据基于协同过滤推荐技术,结合其他用户的搜索历史,找到与其最接近的k 个用户(k-nearest neighborhood),然后基于他们的历史喜好向用户进行推荐,甚至还可以将这些用户推荐给他认识,这样用户通过搜索平台不光得到他想要的搜索结果,还了解了该领域的最新研究进展、大牛教授以及与自己兴趣相投的伙伴,搜索平台会成为他们日常生活中不可或缺的一部分。

期待未来的MSAcademic能够成为这样的搜索平台~

Btw,这个名字是不是有点别扭啊,都没啥缩写,打出来麻烦,说着也拗口,考虑下换个简单上口的行不?

 

 作者:方晓          编辑:许晓彬

 版权所有,转载请注明出处。

(原文发表于CSDN博客:http://blog.csdn.net/codingcrazy/archive/2010/11/06/5991187.aspx

 

posted on 2010-11-27 20:40  CodingCrazy 小组  阅读(233)  评论(1编辑  收藏  举报