(注:博文转载请注明作者和出处 作者:finallyliuyu 出处 博客园)

将实验数据公布出来,目的在于可以方便有相同爱好者的网友,直接下载中间数据快速重现实验。

资源空间提供方:download.csdn.net

统计词典以及关联表数据结构

每个数据包中共有四个文件:keywords.dat,testVSM.dat,trainingVSM.dat,evaluation.txt (.dat文件需要用ultraedit来查看)

全局DF法选取2000个关键词

IG法选取2000个关键词

卡方法选取2000个关键词

局部DF法选取4000个关键词

点互信息法选取2000个关键词

 

 局部DF法选取1000个特征词

全局DF法选取1000个特征词

点互信息法选取1000个特征词

IG法选取1000个特征词

卡方法选取1000个特征词

 

posted on 2010-10-04 20:46  finallyly  阅读(1120)  评论(17编辑  收藏  举报