Apache Mahout 0.9、10.1、11. CardinalityException: Required cardinality 60 but got 29
我们可以使用Apache Mahout来快速创建高效扩展性又好的机器学习应用。Mahout结合了诸如H2O算法、Scala、Spark和Hadoop MapReduce等模块,为开发人员提供了一个构建可扩展算法的环境。现在最新的版本是去年11月6日发布的0.11.1版本。
Apache Mahout支持一个叫做Samsara的数学环境,用户可以在Samsara中使用它提供的常见算法来开发自己的数学解决方案。Samsara对于线性代数、数据结构和统计操作都有着很好的支持,而且可以通过Scala的Mahout扩展或Mahout库来进行定制。Samara对很多常见算法都进行了重写因此速度上有一定的提升。这里我们能列出的一些算法包括:朴素贝叶斯分类器、矩阵分解、协同过滤以及神经网络。新加入的相似性分析还可以通过分析用户的点击来实现共现推荐算法。
Apache Mahout GitHub地址:https://github.com/apache/mahout
2014 年 4 月 25 日
不过 hadoop 3.0 号称比 spark 快10呗。 不知道 Mahout 会不会跟 MR say Hi ! 互联网变化这么快,谁知道呢?
Mahout 概述
Mahout 安装
一 下载解压缩
-------未测 不推荐--------
-------已测 推荐 --------
wget 11.0 版本 也没问题
二 配置 profile
三 获取数据
国外教育网站专门检测聚类
四 Mahout 测试
1 0.7 mahout 创建 hdfs dfs -mkdir /testdata (未测试)
2 0.9 mahout 创建
1)hdfs dfs -mkdir /user
2)hdfs dfs -mkdir /user/root
3 0.7 mahout 上传 hdfs dfs -put /usr/local/opt/mahout-distribution-0.9/synthetic_control.data /testdata
0.9 mahout 上传 hdfs dfs -put /usr/local/opt/mahout-distribution-0.7/synthetic_control.data /user/root/testdata
上传好测试数据后 开始运行job 命令:
hadoop jar mahout-examples-0.9-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
下载一个 Mahout 11版本。。 15年8月
解决此问题。 原因是数据源问题。
推荐、用户分类、文档打标签、疾病诊断、安全监控、质量控制、安全部门的招募、药剂检测等方面发挥着重要的作用。
Mahout 算法库介绍
解析聚类算法
解析分类算法
协同过滤算法
未完待续
God has given me a gift. Only one. I am the most complete fighter in the world. My whole life, I have trained. I must prove I am worthy of someting. rocky_24