philo-x

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

Part I. 理论基础

一、Boolean Model

二、TF/IDF

1、TF(Term frequency)

2、IDF(Inverse document frequency)

3、Field-length norm       

 

三、Vector Space Model

1、余弦相似度

 

根据向量点积的含义,该公式其实可以看作是带权向量归一化之后的点积,表征的两个向量夹角的余弦(归一化之后其实夹角是不变的)

 

 

 

Part II. TFIDFSimilarity

概念公式:

      

  • doc-len-norm(d)

V(d)归一化为单位向量没有考虑Field Length属性,同时Field Lenth会影响相似度得分,因此不能单纯的将V(d)归一化为单位矢量,于是引入了一个新的文档长度归一化因子:doc-len-norm

 

实际公式:

 

posted on 2019-08-01 08:24  philo-x  阅读(498)  评论(0)    收藏  举报