TF-IDF

TF-IDF可以用于特征提取,也可以用于特征权重计算,这里讲的是后者。

 

TF=文档d中特征词t的词频

IDF=log(文档总数/出现t的文档数)

TF-IDF=TF*IDF

(上式为weka中TFIDF计算公式,也是最经典的公式)

特征词的TFIDF权值代表了其在相应文档中的重要程度。

 

在朴素贝叶斯分类器中,TFIDF为numeric数值属性

此时P(H|X)=P(X|H)P(H)/P(X) 中X为连续值属性,使用高斯分布

此时P(xk|Ci)=g(xkCiCi)

 

TF-IDF应用在文本分类上也有一些问题

(1)如果特征集中出现在某类别,有类别区分能力,应该赋予较高权重

(2)文档长度对TF有一定影响,短文本TF值吃亏

(3)特征词仅高频出现在很少数文档,并不能表征类别,应赋予较低权重

当然也有改进公式

(1)TF=文档中t的词频/文档总长度 ,以此消除长短文本的不平衡

(2)结合类内分布、类间分布的评估,类内分布越多权值越高,类间分布越平均权重越低

 

posted on 2015-11-07 01:21  IvanSSSS  阅读(448)  评论(0编辑  收藏  举报

导航