摘要: 本文接数据挖掘-基于贝叶斯算法及KNN算法的newsgroup18828文档分类器的JAVA实现(上)本分类器的完整工程可以到点击打开链接下载,详细说明的运行方法,用eclipse可以运行,学习数据挖掘的朋友可以跑一下,有问题可以联系我,欢迎交流:)上文中描述了newsgroup18828文档集的预处理及贝叶斯算法的JAVA实现,下面我们来看看如何实现基于KNN算法的newsgroup文本分类器1 KNN算法的描述KNN算法描述如下:STEP ONE:文本向量化表示,由特征词的TF*IDF值计算STEP TWO:在新文本到达后,根据特征词确定新文本的向量STEP THREE:在训练文本集中选出 阅读全文
posted @ 2012-03-27 23:47 yangleo 阅读(1024) 评论(6) 推荐(0) 编辑
摘要: 本文主要描述基于贝叶斯算法及KNN算法的newsgroup18828文档分类器的设计及实现,包括数据预处理、贝叶斯算法及KNN算法实现。本分类器的完整工程可以到点击打开链接下载,详细说明的运行方法,用eclipse可以运行,学习数据挖掘的朋友可以跑一下,有问题可以联系我,欢迎交流:)。本文主要内容如下:对newsgroup文档集进行预处理,提取出30095 个特征词计算每篇文档中的特征词的TF*IDF值,实现文档向量化,在KNN算法中使用用JAVA实现了KNN算法及朴素贝叶斯算法的newsgroup文本分类器1、Newsgroup文档集介绍Newsgroups最早由Lang于1995收集并在[ 阅读全文
posted @ 2012-03-27 23:06 yangleo 阅读(638) 评论(0) 推荐(0) 编辑