摘要: 网页中不能显示公式和配图,带配图的doc版可以在这里查看或下载:http://pan.baidu.com/s/1vIAtp1.介绍SVM是数据分类的一个有用的技术。虽然SVM被认为比神经网络简单,不熟悉的用户一开始很容易不习惯。在此我们给出梗概。注意本指导不是给SVM研究者的,也不保证能达到高的准确... 阅读全文
posted @ 2013-10-22 19:55 爱知菜 阅读(180) 评论(0) 推荐(0) 编辑
摘要: 在完成了预处理和特征提取后,下一步就是用 聚类算法 进行文本聚类。在聚类算法中 距离函数的选择很重要,文本挖掘中最好的距离函数就是 余弦距离,但是Weka 3.6.10中 尚不支持余弦距离,需要自己实现。我们可以在 Eclipse 中创建一个文本挖掘的项目,引入 weka.jar,然后然后实现一个计... 阅读全文
posted @ 2013-10-22 16:18 爱知菜 阅读(269) 评论(0) 推荐(0) 编辑
摘要: 上一篇文章介绍了一个简单的预处理过程,这篇文章将继续演示下一步:用 weka 的 Filter 提取特征。Weka 处理数据的格式是 arff,所以首先我们要把 text_example 转换成 该格式,这里要用到weka.core.converters.TextDirectoryLoader 这个... 阅读全文
posted @ 2013-10-22 11:57 爱知菜 阅读(198) 评论(0) 推荐(0) 编辑