Part I. 理论基础
一、Boolean Model
二、TF/IDF
1、TF(Term frequency)
2、IDF(Inverse document frequency)
3、Field-length norm
三、Vector Space Model
1、余弦相似度
根据向量点积的含义,该公式其实可以看作是带权向量归一化之后的点积,表征的两个向量夹角的余弦(归一化之后其实夹角是不变的)
Part II. TFIDFSimilarity
概念公式:
- doc-len-norm(d)
V(d)归一化为单位向量没有考虑Field Length属性,同时Field Lenth会影响相似度得分,因此不能单纯的将V(d)归一化为单位矢量,于是引入了一个新的文档长度归一化因子:doc-len-norm
实际公式: