tfidf与bm25

https://www.cnblogs.com/johnnyzen/p/11298273.html

前言

本文主要是对TF-IDF和BM25在公式推演、发展沿革方面的演述，全文思路、图片基本来源于此篇公众号推文《搜索中的权重度量利器: TF-IDF和BM25》，侵删。

一术语

TF: Term Frequency,词频；衡量某个指定的词语在某份【文档】中出现的【频率】
IDF: Inverse Document Frequency,逆文档频率；一个词语【普遍重要性】的度量。
TF-IDF = TF*IDF

一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。 -----《TF-IDF 百度百科》

TFIDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

BM25
- 应用:BM25相关度打分,基于BM25与TextRank的单文档自动文摘（经Rouge评测，效果较为优异）

bm25 是一种用来评价搜索词和文档之间相关性的算法，它是一种基于概率检索模型提出的算法

回到顶部(Back to Top)

二 TF-IDF

<1>传统的TF-IDF
- 【TF】词汇word的词频(TF)值

T F S c o r e = t f = 指 定 词 汇 w o r d 在 第 i 份 文 档 d o c u m e n t s [ i ] 中 出 现 的 次 数 文 档 d o c u m e n t s [ i ] 的 长 度

+ 【IDF】词汇word的逆文档频率(IDF)值

I D F S c o r e = l o g (文 档 集 d o c u m e n t s 的 总 数 指 定 词 w o r d 在 文 档 集 d o c u m e n t s 中 出 现 过 的 文 档 总 数)

+ <span class="important">【TF-IDF/关联度计算】</span>词汇word与某份文档documents[j]的关联度得分(TF-IDF)

T F I D F (w o r d | d o c u e m e n t s) = S i m i l a r i t y (w o r d | d o c u m e n t s)

S i m i l a r i t y (w o r d | d o c u m e n t s) = T F S c o r e * I D F S c o r e

+ 短语sentence与某份文档documents[j]的关联度得分(TF-IDF)

s e n t e n c e = [w o r d 1, w o r d 2, . . ., w o r d i, . . ., w o r d n]

T F I D F s e n t e n c e (w o r d | d o c u e m e n t s) = T F I D F w o r d 1 + T F I D F w o r d 2 + . . . + T F I D F w o r d i + . . . + T F I D F w o r d n

<2>早期Lucence版的TF-IDF
- 【TF】

T F S c o r e = s q r t (t f)

+ 【IDF】

I D F S c o r e = l o g (文 档 集 d o c u m e n t s 的 总 数 指 定 词 w o r d 在 文 档 集 d o c u m e n t s 中 出 现 过 的 文 档 总 数 + 1)

+ 【filedNorms】fieldNorms:对文本长度的归一化(Normalization)

f i e l d N o r m s = (1 s q r t ( 文 档 d o c u m e n t s [ j ] 的 长 度 ))

+ <span class="important">【TF-IDF/关联度计算】</span>

T F - I D F (w o r d | d o c u e m e n t s) = S i m i l a r i t y (w o r d | d o c u m e n t s)

S i m i l a r i t y (w o r d | d o c u m e n t s) = T F S c o r e * I D F S c o r e * f i e l d N o r m s

posted on 2020-11-19 17:10 不忘初衷,方能致远阅读(542) 评论(0) 收藏举报

刷新页面返回顶部

不忘初衷,方能致远

tfidf与bm25

前言

一术语

二 TF-IDF

导航

公告

不忘初衷,方能致远

tfidf与bm25

前言

一 术语

二 TF-IDF

导航

公告

一术语