潜语义分析LSA相比向量空间模型VSM改变了什么

向量空间模型VSM中,当查询向量query和文档向量d有共同元素时,基于内积的相似度计算sim(query,d)不为0,因此d被返回;当query和d没有共同元素时,sim(query,d)为0,则d被忽略。这样的结果是,如果d中有和query"主题相关"的的内容,那么d就被漏掉了。

潜语义分析LSA方法中,d和query都经过转换后,即使query和d没有共同元素时,经转换后的query和d的相似度sim(query,d)也不为0,则d被返回。也就是说,query和d在原来维度的空间里本来是正交的,经过转换后,投影到一个低维空间,这样十有八九就不正交了。这样的结果是,如果d中有和query"主题相关"的的内容,那么d就检索到了。但是,仅仅这样说的话就是一种想当然的说法。

posted on 2012-05-13 20:48  NLP新手  阅读(1130)  评论(0编辑  收藏  举报

导航