语义相似度计算——VSM和LSA
向量空间模型VSM
VSM是基于bag-of-words的文档匹配算法。首先分词、去除停用词,留下来的词就是特征词,而所有文档留下来的词组成特征词典\(V\),此时每个文档都可以表示为一个特征向量\(\bold{x}\),其长度等于特征词典的大小\(|V|\)。在向量任何一个分量\(\bold{x}_i\)的取值为:如果该文档包含特征词\(V_i\),取该特征词的tf-idf值,否则取0.
于是通过任意两个文档的特征向量的余弦相似度即可得到数据集中最相似的两个文档。
该模型也可以用在检索上,匹配query和语料库的每个doc的相似度,返回最高的那个。
局限和不足:
- 没有考虑词的多语义。“苹果”一词在不同上下文下,有不同的含义。
- 没有考虑词序信息。
潜在语义分析 LSA,Latent Semantic Analysis
待补充。