潜语义分析LSA相比向量空间模型VSM改变了什么
向量空间模型VSM中,当查询向量query和文档向量d有共同元素时,基于内积的相似度计算sim(query,d)不为0,因此d被返回;当query和d没有共同元素时,sim(query,d)为0,则d被忽略。这样的结果是,如果d中有和query"主题相关"的的内容,那么d就被漏掉了。
潜语义分析LSA方法中,d和query都经过转换后,即使query和d没有共同元素时,经转换后的query和d的相似度sim(query,d)也不为0,则d被返回。也就是说,query和d在原来维度的空间里本来是正交的,经过转换后,投影到一个低维空间,这样十有八九就不正交了。这样的结果是,如果d中有和query"主题相关"的的内容,那么d就检索到了。但是,仅仅这样说的话就是一种想当然的说法。
**************************************************************
我喜欢程序员,他们单纯、固执、容易体会到成就感;面对困难,能够不休不眠;面对压力,能够迎接挑战。他们也会感到困惑与傍徨,但每个程序员的心中都有一个比尔盖茨或是乔布斯的梦想,用智慧把属于自己的事业开创。其实我是一个程序员[=.=]
我喜欢程序员,他们单纯、固执、容易体会到成就感;面对困难,能够不休不眠;面对压力,能够迎接挑战。他们也会感到困惑与傍徨,但每个程序员的心中都有一个比尔盖茨或是乔布斯的梦想,用智慧把属于自己的事业开创。其实我是一个程序员[=.=]