Apache Mahout

Apache Mahout的机器学习库的目标是建立可扩展的机器学习库

可扩展到相当大的数据集。 我们的核心算法,聚类,分类和批量基于协同过滤的实现Apache Hadoop之上使用的map / reduce范式。 但是,我们并不限制基于Hadoop的实现贡献:贡献单个节点或在非Hadoop集群上运行的欢迎。 核心库进行了高度优化,以获得较好的性能也非分布式算法

可扩展性,以支持您的业务情况。 Mahout的是一个商业友好的Apache软件许可下分发。

目前Mahout的主要支持四个用例:建议挖掘用户的行为,并试图找到用户可能会喜欢的项目。 聚类例如文本文件,然后将它们成组主题相关的文档。 从分类学的重新审视和分类文件记录一个特定类别的样子,未标记的文件能够分配到正确的类别(希望)。 频繁项集挖掘项目组采用一组(查询会话中,购物车的内容),并确定,其中个别项目通常一起出现。

  • 共同筛选
  • 用户和基于项目的引荐人
  • K均值,模糊K-均值聚类
  • 均值漂移聚类
  • Dirichlet过程聚类
  • 潜在狄利克雷分配
  • 奇异值分解
  • 并行频繁模式挖掘
  • 互补朴素贝叶斯分类
  • 随机森林基于决策树分类
  • 高性能的Java集合

http://mahout.apache.org/

可以和hadoop良好的结合

http://opennlp.apache.org/

OpenNLP基于机器学习工具包,用于处理自然语言文本


posted on 2013-07-24 18:02  AI001  阅读(222)  评论(0编辑  收藏  举报

导航