小瓶盖xpg - 博客园

partition

摘要：机器学习一般算法的输入是训练集和测试集，通常来说是(label, key : value)这样的序对。对于这种输入，直接使用SparkContext提供的textFile()接口就好了，MLlib内部会转换成LabeledPoint类。分布式数据并行环境下，保持数据的本地性是非常重要的内容，事关分布... 阅读全文

posted @ 2015-06-05 15:54 小瓶盖xpg 阅读(169) 评论(0) 推荐(0)

数据预处理之归一化

摘要：归一化在0-1之间是统计的概率分布，归一化在-1--+1之间是统计的坐标分布。，神经网络是以样本在事件中的统计分别几率来进行训练(概率计算)和预测的，归一化是同一在0-1之间的统计概率布;SVM是以降维后线性划分距离来分类和仿真的，因此时空降维归一化是统一在-1--+1之间的统计坐标分布。当所有... 阅读全文

posted @ 2015-06-05 15:25 小瓶盖xpg 阅读(366) 评论(0) 推荐(0)

MLlib中的vector和线性代数运算

摘要：目前最新的Spark 1.1.0版本中MLlib主要还是对核心算法的支持，辅助处理模块还很不完善。源代码包和其功能的对应关系如下：classification/clustering/regression/tree分类算法、回归算法、决策树、聚类算法optimization核心算法的优化方法实现sta... 阅读全文

posted @ 2015-04-27 15:50 小瓶盖xpg 阅读(914) 评论(0) 推荐(0)

小瓶盖

partition

数据预处理之归一化

MLlib中的vector和线性代数运算

导航

公告