TF-IDF

TF-IDF用以评估一个字词对于一个文件集或一个语料库中其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。
TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。

\[词频tf = 某个词在文章中出现的次数 \]

归一化处理：考虑到文章的长度不同，为便于不同文章的比较，对"词频"进行标准化处理（标准化处理的目的：防止它偏向长的文件，同一个词语在长文件里可能会比短文件有更高的词数，而不管该词语重要与否）

\[词频tf = \frac{某个词在文章中出现的次数}{文章的总词数} \]

\[tf_{i,j} = \frac{n_{i,j}}{\sum_{k}{n_{k,j}}} \]

其中：\(tf_{i,j}\)表示某个词语\(t_i\)在文章\(d_j\)中出现的频率；\(n_{i,j}\)表示某个词语\(t_i\)在文章\(d_j\)中出现的次数；\(\sum_{k}{n_{k,j}}\)表示文章\(d_j\)中总词数

如果某个词在文章中出现的次数越多，说明该词对文章的重要度越高

\[词频tf = lg\frac{语料库中的文章总数}{包含该词的文章数+1} \]

\[idf_i = lg\frac{|D|}{\lbrace|j:t_i{\in}d_j|\rbrace} \]

\[idf_i = lg\frac{|D|}{\lbrace|j:{t_i{\in}d_j|\rbrace}+1} \]

其中：\(itf_i\)表示某个词语\(t_i\)的逆文档频率；\(|D|\)表示语料库中的文章总数;\({\lbrace|j:t_i{\in}d_j|\rbrace}\)表示包含该词语 \(t_i\) 的文档数

\[tfidf_{i,j} = tf_{i,j}*idf_i \]

某个词语在某一文档中的出现的频率告（tf高），在整个文档集合中的频率低（idf低），可产生高权重的tf-idf。因此，tf-idf倾向于过滤掉常见的词语，保留重要的词语。

posted @ 2020-11-07 09:38 baishengguan 阅读(228) 评论(0) 编辑收藏举报

刷新页面返回顶部