2010 年 4月 16 日随笔档案 - SINOSoft

文本检索常用系统

摘要：根据设计目的和使用用途的不同，文本信息检索系统可以分为两大类：一类是以技术研究为目的，供研究者使用的实验系统；另一类是供普通用户使用的实用系统，其中使用最广泛的就是WWW搜索引擎。实验系统由于文本信息检索系统非常复杂，所涉及的技术很多，因此，如果每个研究者都自己开发一个完整的检索系统则是相当困难的，并且也没有必要。事实上，已经有不少很完善的实验系统出现，研究者可以利用它们进行研究，其中很多系统... 阅读全文

posted @ 2010-04-16 16:22 SINOSoft 阅读(640) 评论(0) 推荐(0) 编辑

【转】改进向量空间模型

摘要：本文来自CSDN博客，http://blog.csdn.net/Felomeng/archive/2009/04/09/4059128.aspx声明：只是对向量空间模型的介绍（或者叫推广），并没有理论创新工作。本人在之前的《向量空间模型(VSM)在文档相似度计算上的简单介绍》和《向量空间模型文档相似度计算实现（C#）》两篇文章中分别介绍了简单SVM模型及其实现。本人使用简单词频（即词在当前文档中出... 阅读全文

posted @ 2010-04-16 11:23 SINOSoft 阅读(292) 评论(0) 推荐(0) 编辑

[转]向量空间模型(VSM)在文档相似度计算上的简单介绍

摘要：向量空间模型（VSM：Vector space model）是最常用的相似度计算模型，在自然语言处理中有着广泛的应用，这里简单介绍一下其在进行文档间相似度计算时的原理。假设共有十个词：w1，w2，......，w10，而共有三篇文章，d1，d2和d3。统计所得的词频表（杜撰的，为了便于演示用法）如下：w1w2w3w4w5w6w7w8w9w10d112579d23468d3101112131415常... 阅读全文

posted @ 2010-04-16 11:03 SINOSoft 阅读(842) 评论(0) 推荐(0) 编辑

导航

公告

2010年4月16日