摘要: 题目: 将数据的某个特征作为label, 其他特征(或其他某几个特征)作为Feature, 转为LabelPoint 参考: http://www.it1352.com/220642.html 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 得到 阅读全文
posted @ 2017-12-15 17:41 一片黑 阅读(2125) 评论(0) 推荐(0) 编辑
摘要: 此前用自己实现的随机森林算法,应用在titanic生还者预测的数据集上。事实上,有很多开源的算法包供我们使用。无论是本地的机器学习算法包sklearn 还是分布式的spark mllib,都是非常不错的选择。 Spark是目前比较流行的分布式计算解决方案,同时支持集群模式和本地单机模式。由于其通过s 阅读全文
posted @ 2017-12-15 17:39 一片黑 阅读(2492) 评论(0) 推荐(0) 编辑
摘要: Spark机器学习MLlib系列1(for python)--数据类型,向量,分布式矩阵,API 关键词:Local vector,Labeled point,Local matrix,Distributed matrix,RowMatrix,IndexedRowMatrix,CoordinateM 阅读全文
posted @ 2017-12-15 15:15 一片黑 阅读(718) 评论(0) 推荐(0) 编辑
摘要: http://mirror.bit.edu.cn/apache/hadoop/common/ 阅读全文
posted @ 2017-12-15 11:23 一片黑 阅读(794) 评论(0) 推荐(0) 编辑