TF-IDF
TF-IDF可以用于特征提取,也可以用于特征权重计算,这里讲的是后者。
TF=文档d中特征词t的词频
IDF=log(文档总数/出现t的文档数)
TF-IDF=TF*IDF
(上式为weka中TFIDF计算公式,也是最经典的公式)
特征词的TFIDF权值代表了其在相应文档中的重要程度。
在朴素贝叶斯分类器中,TFIDF为numeric数值属性
此时P(H|X)=P(X|H)P(H)/P(X) 中X为连续值属性,使用高斯分布
此时P(xk|Ci)=g(xk,μCi,σCi)
TF-IDF应用在文本分类上也有一些问题
(1)如果特征集中出现在某类别,有类别区分能力,应该赋予较高权重
(2)文档长度对TF有一定影响,短文本TF值吃亏
(3)特征词仅高频出现在很少数文档,并不能表征类别,应赋予较低权重
当然也有改进公式
(1)TF=文档中t的词频/文档总长度 ,以此消除长短文本的不平衡
(2)结合类内分布、类间分布的评估,类内分布越多权值越高,类间分布越平均权重越低
--------------------------------------------------
(* "・∀・)ノ ------◎ 去吧!大师球!!