随笔档案「2011年5月15日」：PyMining-开源中文文本数据挖掘平台 Ver 0.1发布 ... - LeftNotEasy

2011年5月15日

摘要：目前算法主要是针对那些单机能够完成的任务，该架构良好的扩展性能够让你在很短的时间内完成自己想要的算法，并且用于工程之中（相信我，肯定比Weka更快更好）。该项目的另一个特色是能够很好的支持中文文本的分类、聚类等操作。 *当前版新增加入了K-Means算法，能够对文本进行聚类加入了基于补集的朴素贝叶斯算法，大大提升了分类的准确率，目前该算法在搜狗实验室文本分类数据中，对20000篇、8分类左右的数据的预测准确率在90%左右阅读全文

posted @ 2011-05-15 22:21 LeftNotEasy 阅读(14971) 评论(5) 推荐(8)

LeftNotEasy

关注于 机器学习、数据挖掘、并行计算、数学

关注于机器学习、数据挖掘、并行计算、数学