摘要:
最终版本的文本分类代码、语料、以及中间文件都已经开源共享见:http://www.cnblogs.com/finallyliuyu/archive/2012/01/15/2322721.html。由于数据和程序规模比较大,就不在博客园上传了。大家可以自己注册下载。(注:转载请注明作者和出处 作者:finallyliuyu 出处:博客园)适用人群:文本分类初学者、新手、菜鸟、业余爱好者目的:1.将书本上关于文本分类的相关内容,如分类器、特征词选择算法等,用程序实现,让入门者对文本分类有个感性的、具体的了解,毕竟数学公式还是蛮抽象的; 2.“尽信书不如无书”,“纸上得来终觉浅,绝知此事要躬行”,借 阅读全文
摘要:
(注:博文转载请注明作者和出处 作者:finallyliuyu 出处:博客园)本博文旨在通过实践验证各种特征词选择算法对文本分类性能的影响。根据Yi ming yang 1999年的论文《A comparision of feature selection algorithms in Text Categorization》中的论断: DF,IG,CHI-square法性能差不多,point wi... 阅读全文
摘要:
(注:博文转载请注明作者和出处 作者:finallyliuyu 出处 博客园)将实验数据公布出来,目的在于可以方便有相同爱好者的网友,直接下载中间数据快速重现实验。资源空间提供方:download.csdn.net统计词典以及关联表数据结构每个数据包中共有四个文件:keywords.dat,testVSM.dat,trainingVSM.dat,evaluation.txt (.dat文件需要用u... 阅读全文
摘要:
声明:按类别特征词选择算法声明 Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/--vector<pair<string,double>>LocalDFFeatureSelectionForPerclass(DICTIONARY&a... 阅读全文
摘要:
博文转载请注明作者和出处(作者:finallyliuyu :出处博客园)附:《卡方特征词选择算法》 《DF特征词选择算法》一.数学背景将数学知识、数学理论以及数学思想迁移到实际工程问题中,经常会促进工程问题的圆满解决。可是如何将数学知识引入工程问题中呢?首先需要有“数学思维”例如理解数学公式所刻画的内涵;其次需要有“建模”能力:从不同的视角来看待同... 阅读全文