文本分类(二)特征权重量化器(文档转向量表示)
上一节做了分词器的实现,并实现了Simple、Standar、Cn、ICTCLAS几个分词算法。本节实现文档转向量表示,并命名为特征权重量化器,特征权重量化器我只实现1个算法----TFIDF算法。
项目类图如下:
测试程序如下:
Code
测试结果输出如下:
需要完善的地方:
1、根据TFIDF计算出的向量表示维数很高,一般维数等于所有样本中消去重复词后词的数目,下一步进行降维。降维我现有的思路是:(1)事先进行特征选取(特征选取方法有信息增益、卡方检验),然后再用TFIDF进行特征提取;(2)计算出TFIDF后进行降维。(3)在分词阶段对停用词、标点符号等特殊字符的有效过滤也实际上起到降维的作用,而实际上标点符号对文档来说是没有作用的。(4)在文本分类中,还可以事先建立与分类相关的专业词汇库,特征提取时与词汇库比较,词汇库中不存在的词,认为是对分类没有意义的词。这样进行降维。
稍后贴出代码下载.