25.TF&IDF算法以及向量空间模型算法

主要知识点:

  • boolean model
  • IF/IDF
  • vector space model

   

一、boolean model

   

在es做各种搜索进行打分排序时,会先用boolean model 进行初步的筛选,boolean model类似and这种逻辑操作符,先过滤出包含指定termdocmust/must not/should(过滤、包含、不包含 、可能包含)这几种情况,这一步不会对各个doc进行打分,只分过滤,为下一步的IF/IDF算法筛选数据。

   

二、TF/IDF

   

这一步就是esboolean model过滤出来的doc进行打分,但是这一步也只是单个termdoc中的分数。现假如:

   

query: hello world

doc1: java is my favourite programming language, hello world !!!

doc2: hello java, you are very good, oh hello world!!!

   

hellodoc1的评分

   

TF: term frequency

   

找到hellodoc1中出现了几次,1次,会根据出现的次数给个分数

一个term在一个doc中,出现的次数越多,那么最后给的相关度评分就会越高

   

IDFinversed document frequency

   

找到hello在所有的doc中出现的次数,3

一个term在所有的doc中,出现的次数越多,那么最后给的相关度评分就会越低

   

length norm

   

hello搜索的那个field的长度,field长度越长,给的相关度评分越低; field长度越短,给的相关度评分越高

   

最后,会将hello这个term,对doc1的分数,综合TFIDFlength norm,计算出来一个综合性的分数

   

3vector space model

   

我们在做搜索时,搜索条件中可能会有多个term,es出来的分数结果也是对多个term的综合分数,多个term对一个doc的总分数的计算,在es中使用的是vector space model(空间向量模型),这个模型的算法很复杂,我们在使用es时不需要知道这种算法,只需要知道综合分数是由灾这种模型计算得出的就行。

posted @ 2018-03-08 12:34  outback123  阅读(764)  评论(0编辑  收藏  举报