文本分类博文收集
1.预处理
标签处理
分词标注 ictclas-linux32-jni
去停用词
2.倒排索引,词频统计
3.特征选择
信息增益 http://www.blogjava.net/zhenandaci/archive/2009/03/24/261701.html
卡方统计 http://hi.baidu.com/bjwyl66/item/4b578612bc934e572a3e22d0
4.分类器
svm
knn
5.性能评价
正确率
召回率
F1测度