摘要: 1.解压安装spark tar zxf spark-2.1.O-bin-2.6.0-CDH5.10.0.tgz 2.修改配置文件 vim /etc/profile export SPARK_HOME=/opt/spark/spark-2.1.O export PATH=$PATH:$SPARK_HO 阅读全文
posted @ 2017-05-24 17:42 鱼果说 阅读(170) 评论(0) 推荐(0) 编辑
摘要: 1.下载spark源码包 http://spark.apache.org/downloads.html 2.安装Scala与maven,解压spark源码包 安装Scala: tar zxf scala-2.11.8.tar 修改vim /etc/profile export SCALA_HOME= 阅读全文
posted @ 2017-05-24 17:41 鱼果说 阅读(216) 评论(0) 推荐(0) 编辑
摘要: 1.修改主机名为master, slave1, slave2 vim /etc/sysconfig/network HOSTNAME = master HOSTNAME = slave1 HOSTNAME = slave2 2.修改hosts文件(三个节点都要设置) vim /etc/hosts 1 阅读全文
posted @ 2017-05-23 17:11 鱼果说 阅读(417) 评论(0) 推荐(0) 编辑
摘要: 频繁模式挖掘(Frequent Pattern Mining): 频繁项集挖掘是通常是大规模数据分析的第一步,多年以来它都是数据挖掘领域的活跃研究主题。建议用户参考维基百科的association rule learning 了解更多信息。MLlib支持了一个并行的FP-growth,FP-grow 阅读全文
posted @ 2017-01-09 16:48 鱼果说 阅读(4417) 评论(0) 推荐(0) 编辑
摘要: TF-IDF TF-IDF(Term frequency-inverse document frequency ) 是文本挖掘中一种广泛使用的特征向量化方法。TF-IDF反映了语料中单词对文档的重要程度。假设单词用t表示,文档用d表示,语料用D表示,那么文档频度DF(t, D)是包含单词t的文档数。 阅读全文
posted @ 2017-01-09 16:43 鱼果说 阅读(3158) 评论(0) 推荐(0) 编辑
摘要: 降维[Dimensionality Reduction]: 降维 是减少变量数量的过程。它可以用来从含有噪声的未加工特征中提取潜在特征,或者在维持原来结构的情况下压缩数据。MLlib提供了类RowMatrix 上的降维支持。 奇异值分解 (SVD): 奇异值分解(SVD)将一个矩阵分解为三个矩阵:U 阅读全文
posted @ 2017-01-09 16:41 鱼果说 阅读(622) 评论(0) 推荐(0) 编辑
摘要: 聚类: 聚类是一个无监督学习问题,我们基于相似的特性将数据分组成多个子集。聚类通常用于探索性分析或者作为分层监督学习管道(每个簇训练不同的分类或者回归模型)的组件。 MLlib支持下面的几个模型: K均值(K-means) 高斯混合(Gaussian mixture) 幂迭代聚类(Power ite 阅读全文
posted @ 2017-01-09 16:40 鱼果说 阅读(1404) 评论(0) 推荐(0) 编辑
摘要: 协同过滤[Collaborative filtering]: 协同过滤(Collaborative filtering)是推荐系统的一个常用算法。这个技术的目的在于填充user-item矩阵中的缺失项。MLlib当前支持基于模型的协同过滤,在这种方法中,用户和产品通过一个小的潜在因素(latent 阅读全文
posted @ 2017-01-09 16:37 鱼果说 阅读(477) 评论(0) 推荐(0) 编辑
摘要: 数学公式[Mathematical formulation]: 很多标准的机器学习方法都可以归结伟凸优化问题。 例如,寻找凸函数f(w)极小值的任务(w[weights]为d维权值向量,它是函数f的自变量)。比较正式地,我们可以将之写作优化问题:min f(w), w∈Rd,其目标函数如下: 这里向 阅读全文
posted @ 2017-01-09 16:34 鱼果说 阅读(618) 评论(0) 推荐(0) 编辑
摘要: 汇总统计[Summary statistics]: Summary statistics提供了基于列的统计信息,包括6个统计量:均值、方差、非零统计量个数、总数、最小值、最大值。 import org.apache.spark.api.java.JavaRDD; import org.apache. 阅读全文
posted @ 2017-01-09 16:29 鱼果说 阅读(452) 评论(0) 推荐(0) 编辑