(注:博文转载请注明作者和出处 作者:finallyliuyu 出处 博客园)
将实验数据公布出来,目的在于可以方便有相同爱好者的网友,直接下载中间数据快速重现实验。
资源空间提供方:download.csdn.net
统计词典以及关联表数据结构
每个数据包中共有四个文件:keywords.dat,testVSM.dat,trainingVSM.dat,evaluation.txt (.dat文件需要用ultraedit来查看)
全局DF法选取2000个关键词
IG法选取2000个关键词
卡方法选取2000个关键词
局部DF法选取4000个关键词
点互信息法选取2000个关键词
局部DF法选取1000个特征词
全局DF法选取1000个特征词
点互信息法选取1000个特征词
IG法选取1000个特征词
卡方法选取1000个特征词