（11）基于MLlib的机器学习

11.1 概述

MLlib的设计理念非常简单，把数据以RDD的形式表示，然后分布式数据集上调用各种算法。

需要注意的是，MLlib中只包含能够在集群上运行良好的并行算法。有些经典的机器学习算法没有包含在其中，就是因为他们不嗯给你并行执行。相反地，一些较新的研究得出的算法因为适用于集群，也被包含在MLlib中，例如分布式随机森林算法。这样的选择使得MLlib中的每一个算法都适用于大规模数据集。如果你要在许多小规模数据集上训练各机器学习模型，最好还是在各节点上使用单节点的机器学习算法库实现。在Spark中，你可以用过把参数列表传给parallelize来在不同的节点上分别运行不同的参数，而在每个节点上则使用单节点的机器学习库来实现。

11.2 系统要求

MLlib需要你的机器预装一些线性代数的库。

你需要安装gfortran运行库
如果你要在Python中使用MLlib，需要安装Numpy

11.3 机器学习基础

11.4 数据类型

11.5 算法

posted @ 2017-01-26 16:42 cyoutetsu 阅读(189) 评论(0) 收藏举报

刷新页面返回顶部

cyoutetsu