partition

摘要: 机器学习一般算法的输入是训练集和测试集,通常来说是(label, key : value)这样的序对。对于这种输入,直接使用SparkContext提供的textFile()接口就好了,MLlib内部会转换成LabeledPoint类。分布式数据并行环境下,保持数据的本地性是非常重要的内容,事关分布... 阅读全文
posted @ 2015-06-05 15:54 小瓶盖xpg 阅读(160) 评论(0) 推荐(0) 编辑

数据预处理之归一化

摘要: 归一化在0-1之间是统计的概率分布,归一化在-1--+1之间是统计的坐标分布。,神经网络是以样本在事件中的统计分别几率来进行训练(概率 计算)和预测的,归一化是同一在0-1之间的统计概率布;SVM是以降维后线性划分距离来分类和仿真的,因此时空降维归一化是统一在-1--+1之间的统 计坐标分布。当所有... 阅读全文
posted @ 2015-06-05 15:25 小瓶盖xpg 阅读(309) 评论(0) 推荐(0) 编辑

MLlib中的vector和线性代数运算

摘要: 目前最新的Spark 1.1.0版本中MLlib主要还是对核心算法的支持,辅助处理模块还很不完善。源代码包和其功能的对应关系如下:classification/clustering/regression/tree分类算法、回归算法、决策树、聚类算法optimization核心算法的优化方法实现sta... 阅读全文
posted @ 2015-04-27 15:50 小瓶盖xpg 阅读(902) 评论(0) 推荐(0) 编辑