毕业设计笔记(一):文本分类

文本分类实验流程设计:

1)下载搜狗语料 地址:http://www.sogou.com/labs/dl/c.html

2)下载中科院分词系统(ictclas)包 地址:http://ictclas.org/ictclas_download.aspx

3)对应每个分类选择部分搜狗语料作为训练集,使用ictclas包对该部分语料进行分词

4)编码对分词结果进行预处理,处理结果为各个单词的出现频率,并对各个分类进行数据库建表

5)剩下的搜狗语料作为测试集,重复步骤3~4

6)将训练集和测试集分别实例化,处理成arff文件

7)编码调用weka的api对训练集和测试集进行文本分类

8)根据结果得出对应结论

posted @ 2012-03-09 15:56  林氏出品  阅读(281)  评论(0编辑  收藏  举报