Loading

互联网搜索与挖掘组

 

 
 
负责人:马维英
 
  互联网搜索与数据挖掘组致力于将数据挖掘、机器学习与知识发现技术和信息分析、组织、检索与可视化的过程相结合,将目前的互联网搜索提高到一个新的层次。例如,我们正在研究如何挖掘深层互联网结构,以实现对多个在线数据库的一站式搜索,并利用网页布局结构提高链接分析和排序算法的性能。我们还在开发能处理大规模数据并快速适应新主题的分类和聚类算法,以适应互联网的动态特点。基于文档级别的排序和检索是信息检索领域25 年来的传统模式,目前我们正在探索一种新的模式,以实现对象级别的互联网搜索。
 
研究项目

对象级别的垂直搜索技术(Object-level Vertical Search)

最新研究成果应用体验:学术搜索 Microsoft Libra

相关介绍:微软下一代智能互联网搜索技术专栏 ->所搜即所得

互联网搜索

我们致力于推动互联网搜索研究到达一个新的层次,同时帮助微软公司开发先进的搜索技术。互联网是一个庞大、异构和动态的网络,先进的互联网搜索技术需要吸收和利用不同领域内的成果,包括信息检索、数据挖掘、机器学习和数据库等。更具体地说,我们正在以下两个方向展开研究:
(1) 大规模实验性互联网搜索平台:我们正在开发一个新的大规模搜索平台。这个平台的首要目标是能够有效的存储、解析、索引和检索数十亿个网页以及各种类型的文档。另外这个平台也是为了构建一个足够灵活的实验性系统,它能够帮助我们试验各种新的搜索技术,包括我们自己的技术。
(2) 使互联网结构化:我们预期在未来几十年中,最大的挑战将在于如何有效和快速地从无组织和非结构化的互联网数据中挖掘出机器所能理解的信息和知识。因此,我们正在探索新的技术,在网页中自动进行结构发现和对象抽取,(这通常被称作网页信息抽取,深层互联网挖掘和互联网结构挖掘)。挖掘出来的信息和知识将大大提高目前互联网搜索的性能,并推动下一代互联网搜索技术走向成熟。

社区与多媒体搜索

近年来随着著作工具和互联网基础设置的完善,人们可以轻松地发布文章表达自己对事物的看法,以及分享自己创造的影像和视频。因此,互联网上的各式各样的媒体变得非常普遍。为了更好地理解和管理人们创造的这些散布在互联网上的海量信息,我们展开了一系列研究工作来试图解决这些极富挑战性的问题。我们的研究主要包括:开发创新性的互联网服务来促进互联网上的社区发展,聚合不同来源、不同媒体形式的用户数据来提供有价值的专用搜索引擎,分析多媒体数据来提升他们的使用价值,以及发明革新性的用户界面来创造丰富的媒体展示形式。同时,我们从新的角度考虑图像标注问题,利用网络搜索技术及网络上大量的图像进行自动标注。这种方法使得无限大标注词库成为可能;并且这一新的设计角度,即利用超大规模数据和搜索技术解决问题,将对高维索引、内容分析和概念建模方面的研究提出新的要求。随着旅游和互联网的流行,越来越多的用户开始通过查询在线旅游服务来帮助自己制定旅游计划以及分享自己的旅游经验。我们正在开发的一项原型Web服务,可以通过聚合、挖掘用户发表在各种论坛、博客上的旅游相关文章实现旅游经验的共享。

移动与本地搜索

近年来PDA和智能手机等移动设备的数目在迅速增长。虽然目前台式电脑依然是进行互联网搜索的主要设备,但是支持用户在外出时访问和搜索互联网变得越来越有价值。为台式电脑设计的搜索引擎能在具有网页浏览功能的移动设备上直接访问,但这并不是最优的方案,因为移动用户的需求只得到了部分满足,而且在移动设备上的浏览也很不方便。我们正在开发前瞻性的技术以帮助移动用户更加准确、快速和便捷地找到信息。目前的移动搜索引擎通常是普通搜索系统的移动版本,只支持文本方式的查询输入。我们发现移动信息需求经常无法用关键词很好地描述。在传统的输入模式之外,照相手机可以支持更加丰富的查询,例如图像。我们相信开发支持用户使用手机图像来搜索互联网信息的移动搜索服务是非常重要的。我们目前正在开发一个能够将查询图像与数据库中数以百万计的图像进行匹配的大规模移动图像搜索引擎。另外,我们试图加入地理知识以更好地获取与地理位置相关的信息,并建议使用地理相关的方式来组织信息。

WebStudio构建互联网数据管理的基础平台

针对互联网数据的分布式、大规模和动态性的特点,我们构建了WebStudio平台以提供大规模互联网数据管理和处理能力。WebStudio是一个集成开发环境(IDE),可以用来快速构建应用原型以及进行Web级别的大规模实验。WebStudio也是一个互联网数据管理系统,可以使用户更方便地存储、访问、操纵互联网数据。基于WebStudio,我们正在探索构建以数据为中心的新型搜索引擎的可能性。

对象级别的搜索

当前常规的搜索引擎可以视为是页面级别的,但是互联网中蕴含着大量的关于现实世界对象的结构化信息,我们在探索一种新的范例,抽取、集成网页上各式各样的对象信息,进行对象级别的搜索。对象级别的搜索引擎的一个显著优点是可以利用对象的语义信息,采用直接或者聚合的结果来响应复杂查询。对象级别搜索的核心技术已经应用在多个系统中:Libra学术搜索(http://libra.msra.cn)、WindowsLive产品搜索(http://products.live.com)以及对象间关系的搜索引擎GuanXi。

网络搜索的评价

我们的网络搜索评价研究有两个连续的目标。首先,我们寻找一种可以测量用户认同感的评价方法。网络搜索在很多方面与传统的信息检索不同,因此,网络搜索就需要新的实验方法、测试数据集和评价指标来量化用户对网络搜索的认同度。第二,我们要设计出专门的评价方法用来诊断搜索引擎中的问题。为了实现以上的目标,我们正在研究诸如查询分类、标注方法、评价方法和实验设计等方面的技术。

深层互联网搜索

研究目标是处理大量网络中“隐藏的”数据,因为目前网络上有大量数据被存放在许多站点的后端数据库中。我们通过研究获取、抽取和集成这些数据的技术,来提高当前搜索引擎中数据的覆盖率和质量。

排序模型学习

对网页进行相关性排序是网络搜索中的核心问题。近年来,研究人员开始采用机器学习的方法来训练排序模型,并取得了一定的成果。我们对这一领域进行了更深入的研究,提出“基于列表的排序模型”,以及相关的损失函数、排序函数、以及训练算法,并对相应算法的理论性质和实际性能做出了全面的分析。

链接分析和互联网数据挖掘

互联网由亿万个网页相互链接而成,它可以看成是一张以网页为节点以超级链接为边的超大规模有向图。然而如何高效而精确地对如此超大规模的图数据进行处理是很大的挑战。我们致力于研发一套用于处理超大规模图数据的分布式平台,它具有分布式图数据存储、渐进式图索引、并行计算、作业优化调度、超强容错等功能。该平台为在超大规模图数据上进行链接分析和其他信息挖掘的研究铺平了道路。

文档信息抽取

在诸多网络应用中,我们需要利用元数据对文档进行结构化处理和管理。然而由于种种原因,网络上存在的大量文档没有可靠的元数据。对于这些文档,如何自动准确地从中抽取元数据变得十分重要。我们利用机器学习的方法对文档的题目、作者、关键词、类型等信息进行自动抽取,取得了非常好的效果,相关的研究成果已经发表在SIGIR等国际会议上,并被应用到微软的产品中。

原文链接:http://www.msra.cn/Research/Group.aspx?Guid=1eb02921-9de7-4bf0-8c61-4007a1dd10b3

posted @ 2014-03-27 08:39  dai.sp  阅读(303)  评论(0编辑  收藏  举报