摘要: 文本分类实验流程设计:1)下载搜狗语料 地址:http://www.sogou.com/labs/dl/c.html2)下载中科院分词系统(ictclas)包 地址:http://ictclas.org/ictclas_download.aspx3)对应每个分类选择部分搜狗语料作为训练集,使用ictclas包对该部分语料进行分词4)编码对分词结果进行预处理,处理结果为各个单词的出现频率,并对各个分类进行数据库建表5)剩下的搜狗语料作为测试集,重复步骤3~46)将训练集和测试集分别实例化,处理成arff文件7)编码调用weka的api对训练集和测试集进行文本分类8)根据结果得出对应结论 阅读全文
posted @ 2012-03-09 15:56 林氏出品 阅读(281) 评论(0) 推荐(0) 编辑