Information Retrieval --- Classification

一、特征选择：类内代表性、类间区别性、特征子集的最优性

1.DF频率法：选择高频词项

2.互信息MI

3.χ2 统计量

二、分类算法

1.线性方法

1.1朴素贝叶斯（假设条件独立）

1.2 Rocchio算法：质心法，效果一般不如NBC

基本思想：中心向量是所有文档向量的算术平均，将每篇测试文档分到离它最近的那个中心向量。

1.3 SVM支撑向量机：软间隔线性分类器

2.非线性方法：KNN最近邻

三、分类评价

1.P值：该类中正确的结果所占该类总结果的比重

P=CT/(CT+CN)

2.R值：该类中正确的结果占所有类正确结果的比重

R=CT(CT+~CT)

3.F值：调和平均值

F=1/(0.5*(1/P+1/R))

4.Accurary值：

Accuracy = (RR+NN)/(RN + RR + NR + NN)

posted on 2013-12-16 22:54 Jizhiyuan 阅读(275) 评论(0) 编辑收藏举报

刷新页面返回顶部

所以燃