1.TF-IDF

词频-逆文档频次算法(Term Frequency-Inverse Document Frequency,TF-IDF)是一种统计特征提取算法,评估字或词对于一个文件集或语料库中一份文件的重要程度。

(1)基本思想

重要性与词在整个语料中出现的频次成正比,与出现该词的文档数成反比。

TF(Term Frequency,词频):表示一个给定词语t在一篇给定文档d中出现的频率。TF越高,则词语t对文档d来说越重要,TF越低,则词语t对文档d来说越不重要。

IDF(Inverse Document Frequency,逆向文件频率):IDF实际上就是词(关于文档不确定性)的信息量。思想是,文档频数(即包含某个单词的文档数)越小,则IDF越大,说明词语在整个文档集层面上具有很好的类别区分能力。

(2)具体算法

 

(3)例子

(4)适用条件

不适合不平衡数据集。数据严重偏斜,类间类内数据分布偏差。

传统TF-IDF对于短文本效果不好,大于200个词的文本效果较理想。

(5)缺点

本质上IDF是一种试图抑制噪声的加权,并且单纯地认为文本频率小的单词就越重要,文本频率大的单词就越无用,显然这并不是完全正确的。
IDF无法很好地完成对权值调整的功能,所以TF-IDF法的精度并不是很高。这也是不适合不平衡数据集的原因。

在TF-IDF算法中并没有体现出单词的位置信息,对于Web文档而言,权重的计算方法应该体现出HTML的结构特征。

 

 

 

 

 

参考:

https://www.jianshu.com/p/0d7b5c226f39

 

posted on 2020-05-19 08:52  西伯尔  阅读(261)  评论(0编辑  收藏  举报