TF-IDF

TF-IDF可以用于特征提取，也可以用于特征权重计算，这里讲的是后者。

TF=文档d中特征词t的词频

IDF=log(文档总数/出现t的文档数)

TF-IDF=TF*IDF

(上式为weka中TFIDF计算公式，也是最经典的公式)

特征词的TFIDF权值代表了其在相应文档中的重要程度。

在朴素贝叶斯分类器中，TFIDF为numeric数值属性

此时P(H|X)=P(X|H)P(H)/P(X) 中X为连续值属性，使用高斯分布

此时P(x_k|C_i)=g(x_k,μ_Ci,σ_Ci)

TF-IDF应用在文本分类上也有一些问题

（1）如果特征集中出现在某类别，有类别区分能力，应该赋予较高权重

（2）文档长度对TF有一定影响，短文本TF值吃亏

（3）特征词仅高频出现在很少数文档，并不能表征类别，应赋予较低权重

当然也有改进公式

（1）TF=文档中t的词频/文档总长度，以此消除长短文本的不平衡

（2）结合类内分布、类间分布的评估，类内分布越多权值越高，类间分布越平均权重越低

posted on 2015-11-07 01:21 IvanSSSS 阅读(478) 评论(0) 收藏举报

刷新页面返回顶部

IvanSSSS