随笔档案「2011年2月27日」：支持中文文本的数据挖掘平台开源项目PyMining发布 ... - LeftNotEasy

2011年2月27日

摘要：项目目前主要关注中文文本的数据挖掘算法。由于每种数据挖掘算法的局限性都很大，就拿分类算法一样，决策树、朴素贝叶斯这两种算法都有着自己的特性，只能在某一种类型的类型的数据上应用比较良好，比如朴素贝叶斯，就对于那些短文本的分类比较适合，而决策树对于短文本、稀疏情况下就效果欠佳了，特别是在数据比较稀疏的情况。在这种情况下，当有一个数据挖掘任务的时候，怎样去找到一个合适的算法就非常重要了。如果从头开发算法，是一个成本很高的事情，特别是对文本来说就更麻烦，需要在前面做一些如分词、去停用词等等操作。如果有一个平台，可以支持快速的开发，让用户能够快速的看到，针对自己的数据，什么样的算法比较合适，就是本项目的一个初衷。阅读全文

posted @ 2011-02-27 14:33 LeftNotEasy 阅读(23421) 评论(6) 推荐(12)

LeftNotEasy

关注于 机器学习、数据挖掘、并行计算、数学

关注于机器学习、数据挖掘、并行计算、数学