会员
周边
捐助
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
小瓶盖
partition
摘要: 机器学习一般算法的输入是训练集和测试集,通常来说是(label, key : value)这样的序对。对于这种输入,直接使用SparkContext提供的textFile()接口就好了,MLlib内部会转换成LabeledPoint类。分布式数据并行环境下,保持数据的本地性是非常重要的内容,事关分布...
阅读全文
posted @ 2015-06-05 15:54 小瓶盖xpg
阅读(160)
评论(0)
推荐(0)
编辑
数据预处理之归一化
摘要: 归一化在0-1之间是统计的概率分布,归一化在-1--+1之间是统计的坐标分布。,神经网络是以样本在事件中的统计分别几率来进行训练(概率 计算)和预测的,归一化是同一在0-1之间的统计概率布;SVM是以降维后线性划分距离来分类和仿真的,因此时空降维归一化是统一在-1--+1之间的统 计坐标分布。当所有...
阅读全文
posted @ 2015-06-05 15:25 小瓶盖xpg
阅读(309)
评论(0)
推荐(0)
编辑
MLlib中的vector和线性代数运算
摘要: 目前最新的Spark 1.1.0版本中MLlib主要还是对核心算法的支持,辅助处理模块还很不完善。源代码包和其功能的对应关系如下:classification/clustering/regression/tree分类算法、回归算法、决策树、聚类算法optimization核心算法的优化方法实现sta...
阅读全文
posted @ 2015-04-27 15:50 小瓶盖xpg
阅读(902)
评论(0)
推荐(0)
编辑
导航
博客园
首页
联系
订阅
管理
公告