tf-idf介绍
TF-IDF 简介
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术,常用于挖掘文章中的关键词。
TF-IDF有两层意思,一层是"词频"(Term Frequency,简称TF),另一层是"逆文档频率"(Inverse Document Frequency,简称IDF)。
TF IDF的计算方法
词频,某个词出现在所在文档的次数,这里简单理解为词出现的次数越多,越重要,当然排除停用词,就是“的”,“了”,这一类型的修饰词。
\[TF = 某词在文章中出现的次数
\]
考虑到文章有长短之分,为了便于不同文章的比较,进行词频TF标准化:
\[TF = \frac{某词文章中出现的次数}{该文章的总词数}
\]
\[IDF = log(\frac{N}{df + 1})
\]
N表示语料库中文章的总数,df表示包含该词的文档数, 加 1的作用是为了防止 df = 0的情况
该词出现的次数越多,分母就越大,取对数的值就越小,说明这个词在所有文章中的重要程度就越小
\[TF-IDF = TF \times IDF
\]
说明:词的重要性,随着在文档中出现的次数增多变大,随着在所有文档中的出现次数增加而变小