摘要: 频繁模式挖掘(Frequent Pattern Mining): 频繁项集挖掘是通常是大规模数据分析的第一步,多年以来它都是数据挖掘领域的活跃研究主题。建议用户参考维基百科的association rule learning 了解更多信息。MLlib支持了一个并行的FP-growth,FP-grow 阅读全文
posted @ 2017-01-09 16:48 鱼果说 阅读(4417) 评论(0) 推荐(0) 编辑
摘要: TF-IDF TF-IDF(Term frequency-inverse document frequency ) 是文本挖掘中一种广泛使用的特征向量化方法。TF-IDF反映了语料中单词对文档的重要程度。假设单词用t表示,文档用d表示,语料用D表示,那么文档频度DF(t, D)是包含单词t的文档数。 阅读全文
posted @ 2017-01-09 16:43 鱼果说 阅读(3158) 评论(0) 推荐(0) 编辑
摘要: 降维[Dimensionality Reduction]: 降维 是减少变量数量的过程。它可以用来从含有噪声的未加工特征中提取潜在特征,或者在维持原来结构的情况下压缩数据。MLlib提供了类RowMatrix 上的降维支持。 奇异值分解 (SVD): 奇异值分解(SVD)将一个矩阵分解为三个矩阵:U 阅读全文
posted @ 2017-01-09 16:41 鱼果说 阅读(622) 评论(0) 推荐(0) 编辑
摘要: 聚类: 聚类是一个无监督学习问题,我们基于相似的特性将数据分组成多个子集。聚类通常用于探索性分析或者作为分层监督学习管道(每个簇训练不同的分类或者回归模型)的组件。 MLlib支持下面的几个模型: K均值(K-means) 高斯混合(Gaussian mixture) 幂迭代聚类(Power ite 阅读全文
posted @ 2017-01-09 16:40 鱼果说 阅读(1404) 评论(0) 推荐(0) 编辑
摘要: 协同过滤[Collaborative filtering]: 协同过滤(Collaborative filtering)是推荐系统的一个常用算法。这个技术的目的在于填充user-item矩阵中的缺失项。MLlib当前支持基于模型的协同过滤,在这种方法中,用户和产品通过一个小的潜在因素(latent 阅读全文
posted @ 2017-01-09 16:37 鱼果说 阅读(477) 评论(0) 推荐(0) 编辑
摘要: 数学公式[Mathematical formulation]: 很多标准的机器学习方法都可以归结伟凸优化问题。 例如,寻找凸函数f(w)极小值的任务(w[weights]为d维权值向量,它是函数f的自变量)。比较正式地,我们可以将之写作优化问题:min f(w), w∈Rd,其目标函数如下: 这里向 阅读全文
posted @ 2017-01-09 16:34 鱼果说 阅读(618) 评论(0) 推荐(0) 编辑
摘要: 汇总统计[Summary statistics]: Summary statistics提供了基于列的统计信息,包括6个统计量:均值、方差、非零统计量个数、总数、最小值、最大值。 import org.apache.spark.api.java.JavaRDD; import org.apache. 阅读全文
posted @ 2017-01-09 16:29 鱼果说 阅读(452) 评论(0) 推荐(0) 编辑
摘要: Data Types - MLlib(数据类型) MLlib支持存储在单机上的局部向量和局部矩阵,也可以支持通过一个或多个RDD(可伸缩数据集)表示的分布式矩阵。局部向量和局部矩阵是用作公共接口的简单数据模型,实际上底层的线性代数运算由Breeze (机器学习和数值运算的Scala库)和 jblas 阅读全文
posted @ 2017-01-09 16:27 鱼果说 阅读(6828) 评论(0) 推荐(0) 编辑
摘要: 一、两者分别是什么: Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询--因为它只能够 阅读全文
posted @ 2017-01-09 16:16 鱼果说 阅读(3179) 评论(0) 推荐(0) 编辑
摘要: HBase是三维有序存储的,通过rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)这个三个维度可以对HBase中的数据进行快速定位。 HBase中rowkey可以唯一标识一行记录,在HBase查询的时候,有两种方式: 1、通过g 阅读全文
posted @ 2017-01-09 16:15 鱼果说 阅读(17439) 评论(0) 推荐(1) 编辑
摘要: 一、HBase的特点是什么 1.HBase一个分布式的基于列式存储的数据库,基于hadoop的hdfs存储,zookeeper进行管理。 2.HBase适合存储半结构化或非结构化数据,对于数据结构字段不够确定或者杂乱无章很难按一个概念去抽取的数据。 3.HBase为null的记录不会被存储. 4.基 阅读全文
posted @ 2017-01-09 16:14 鱼果说 阅读(9000) 评论(0) 推荐(2) 编辑