摘要: 本地矩阵具有整型的行、列索引值和双精度浮点型的元素值,它存储在单机上。MLlib支持稠密矩阵DenseMatrix和稀疏矩阵Sparse Matrix两种本地矩阵,稠密矩阵将所有元素的值存储在一个列优先(Column-major)的双精度型数组中,而稀疏矩阵则将非零元素以列优先的CSC(Compre 阅读全文
posted @ 2018-07-10 14:04 一直爬行的蜗牛牛 阅读(658) 评论(0) 推荐(0) 编辑
摘要: 标注点LabeledPoint是一种带有标签(Label/Response)的本地向量,它可以是稠密或者是稀疏的。在MLlib中,标注点在监督学习算法中被使用。由于标签是用双精度浮点型来存储的,故标注点类型在回归(Regression)和分类(Classification)问题上均可使用。例如,对于 阅读全文
posted @ 2018-07-10 11:49 一直爬行的蜗牛牛 阅读(5547) 评论(1) 推荐(1) 编辑
摘要: Spark mlib的本地向量有两种: DenseVctor :稠密向量 其创建方式 Vector.dense(数据) SparseVector :稀疏向量 其创建方式有两种: 方法一:Vector.sparse(向量长度,索引数组,与索引数组所对应的数值数组) 方法二:Vector.sparse( 阅读全文
posted @ 2018-07-10 11:29 一直爬行的蜗牛牛 阅读(307) 评论(0) 推荐(0) 编辑
摘要: 《Spark 官方文档》机器学习库(MLlib)指南 spark-2.0.2 机器学习库(MLlib)指南 MLlib是Spark的机器学习(ML)库。旨在简化机器学习的工程实践工作,并方便扩展到更大规模。MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底 阅读全文
posted @ 2018-07-10 11:21 一直爬行的蜗牛牛 阅读(348) 评论(0) 推荐(0) 编辑