会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
LeftNotEasy
关注于 机器学习、数据挖掘、并行计算、数学
博客园
首页
联系
订阅
管理
2011年5月15日
PyMining-开源中文文本数据挖掘平台 Ver 0.1发布
摘要: 目前算法主要是针对那些单机能够完成的任务,该架构良好的扩展性能够让你在很短的时间内完成自己想要的算法,并且用于工程之中(相信我,肯定比Weka更快更好)。该项目的另一个特色是能够很好的支持中文文本的分类、聚类等操作。 *当前版新增 加入了K-Means算法,能够对文本进行聚类 加入了基于补集的朴素贝叶斯算法,大大提升了分类的准确率,目前该算法在搜狗实验室文本分类数据中,对20000篇、8分类左右的数据的预测准确率在90%左右
阅读全文
posted @ 2011-05-15 22:21 LeftNotEasy
阅读(14882)
评论(5)
推荐(8)
编辑