2010年4月16日

摘要: 根据设计目的和使用用途的不同,文本信息检索系统可以分为两大类:一类是以技术研究为目的,供研究者使用的实验系统;另一类是供普通用户使用的实用系统,其中使用最广泛的就是WWW搜索引擎。实验系统 由于文本信息检索系统非常复杂,所涉及的技术很多,因此,如果每个研究者都自己开发一个完整的检索系统则是相当困难的,并且也没有必要。事实上,已经有不少很完善的实验系统出现,研究者可以利用它们进行研究,其中很多系统... 阅读全文
posted @ 2010-04-16 16:22 SINOSoft 阅读(640) 评论(0) 推荐(0) 编辑
 
摘要: 本文来自CSDN博客,http://blog.csdn.net/Felomeng/archive/2009/04/09/4059128.aspx声明:只是对向量空间模型的介绍(或者叫推广),并没有理论创新工作。本人在之前的《向量空间模型(VSM)在文档相似度计算上的简单介绍》和《向量空间模型文档相似度计算实现(C#)》两篇文章中分别介绍了简单SVM模型及其实现。本人使用简单词频(即词在当前文档中出... 阅读全文
posted @ 2010-04-16 11:23 SINOSoft 阅读(292) 评论(0) 推荐(0) 编辑
 
摘要: 向量空间模型(VSM:Vector space model)是最常用的相似度计算模型,在自然语言处理中有着广泛的应用,这里简单介绍一下其在进行文档间相似度计算时的原理。假设共有十个词:w1,w2,......,w10,而共有三篇文章,d1,d2和d3。统计所得的词频表(杜撰的,为了便于演示用法)如下:w1w2w3w4w5w6w7w8w9w10d112579d23468d3101112131415常... 阅读全文
posted @ 2010-04-16 11:03 SINOSoft 阅读(842) 评论(0) 推荐(0) 编辑