1.TF-IDF
词频-逆文档频次算法(Term Frequency-Inverse Document Frequency,TF-IDF)是一种统计特征提取算法,评估字或词对于一个文件集或语料库中一份文件的重要程度。
(1)基本思想
重要性与词在整个语料中出现的频次成正比,与出现该词的文档数成反比。
TF(Term Frequency,词频):表示一个给定词语t在一篇给定文档d中出现的频率。TF越高,则词语t对文档d来说越重要,TF越低,则词语t对文档d来说越不重要。
IDF(Inverse Document Frequency,逆向文件频率):IDF实际上就是词(关于文档不确定性)的信息量。思想是,文档频数(即包含某个单词的文档数)越小,则IDF越大,说明词语在整个文档集层面上具有很好的类别区分能力。
(2)具体算法
(3)例子
(4)适用条件
不适合不平衡数据集。数据严重偏斜,类间类内数据分布偏差。
传统TF-IDF对于短文本效果不好,大于200个词的文本效果较理想。
(5)缺点
本质上IDF是一种试图抑制噪声的加权,并且单纯地认为文本频率小的单词就越重要,文本频率大的单词就越无用,显然这并不是完全正确的。
IDF无法很好地完成对权值调整的功能,所以TF-IDF法的精度并不是很高。这也是不适合不平衡数据集的原因。
在TF-IDF算法中并没有体现出单词的位置信息,对于Web文档而言,权重的计算方法应该体现出HTML的结构特征。
参考:
https://www.jianshu.com/p/0d7b5c226f39
作者:西伯尔
出处:http://www.cnblogs.com/sybil-hxl/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。