摘要:
题目: 将数据的某个特征作为label, 其他特征(或其他某几个特征)作为Feature, 转为LabelPoint 参考: http://www.it1352.com/220642.html 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 得到 阅读全文
摘要:
此前用自己实现的随机森林算法,应用在titanic生还者预测的数据集上。事实上,有很多开源的算法包供我们使用。无论是本地的机器学习算法包sklearn 还是分布式的spark mllib,都是非常不错的选择。 Spark是目前比较流行的分布式计算解决方案,同时支持集群模式和本地单机模式。由于其通过s 阅读全文
摘要:
Spark机器学习MLlib系列1(for python)--数据类型,向量,分布式矩阵,API 关键词:Local vector,Labeled point,Local matrix,Distributed matrix,RowMatrix,IndexedRowMatrix,CoordinateM 阅读全文
摘要:
http://mirror.bit.edu.cn/apache/hadoop/common/ 阅读全文