关键词抽取技术TF-IDF和Text Rank

1.TF-IDF

词频-逆文档频次算法（Term Frequency-Inverse Document Frequency，TF-IDF）是一种统计特征提取算法，评估字或词对于一个文件集或语料库中一份文件的重要程度。

重要性与词在整个语料中出现的频次成正比，与出现该词的文档数成反比。

TF（Term Frequency，词频）：表示一个给定词语t在一篇给定文档d中出现的频率。TF越高，则词语t对文档d来说越重要，TF越低，则词语t对文档d来说越不重要。

IDF（Inverse Document Frequency，逆向文件频率）：IDF实际上就是词（关于文档不确定性）的信息量。思想是，文档频数（即包含某个单词的文档数）越小，则IDF越大，说明词语在整个文档集层面上具有很好的类别区分能力。

不适合不平衡数据集。数据严重偏斜，类间类内数据分布偏差。

传统TF-IDF对于短文本效果不好，大于200个词的文本效果较理想。

本质上IDF是一种试图抑制噪声的加权，并且单纯地认为文本频率小的单词就越重要，文本频率大的单词就越无用，显然这并不是完全正确的。

IDF无法很好地完成对权值调整的功能，所以TF-IDF法的精度并不是很高。这也是不适合不平衡数据集的原因。

在TF-IDF算法中并没有体现出单词的位置信息，对于Web文档而言，权重的计算方法应该体现出HTML的结构特征。

参考：

posted on 2020-05-19 08:52 西伯尔阅读(261) 评论(0) 编辑收藏举报