机器学习研究与开发平台的选择

　　　　目前机器学习可以说是百花齐放阶段，不过如果要学习或者研究机器学习，进而用到生产环境，对平台，开发语言，机器学习库的选择就要费一番脑筋了。这里就我自己的机器学习经验做一个建议，仅供参考。

　　　　首先，对于平台选择的第一个问题是，你是要用于生产环境，也就是具体的产品中,还是仅仅是做研究学习用？

1. 生产环境中机器学习平台的搭建

　　　　如果平台是要用于生产环境的话，接着有一个问题，就是对产品需要分析的数据量的估计，如果数据量很大，那么需要选择一个大数据平台。否则的话只需要一个单机版的平台就可以了。

1.1 生产环境中机器学习大数据平台的搭建

　　　　生产环境里面大数据平台，目前最主流的就是Spark平台，加上辅助的分布式数据处理容器，比如YARN，或者Mesos.如果需要实时的收集在线数据，那么就加上Kafka。简言之，一个通用的大数据处理平台就是集成Spark + YARN(Mesos) + Kafka. 我现在做的产品项目都是基于Spark + YARN+ Kafka的，目前来看，这个平台选择基本上是主流的方向。

　　　　当然，有人会说，这么多开源软件，一起集成起来好麻烦，大坑肯定不少，有没有一个通用的平台，可以包括类似Spark + YARN+ Kafka的大数据平台功能呢？目前据我所知，做的比较好的有CDAP(http://cdap.io)。它对Spark， YARN， Kafka还有一些主流的开源数据处理软件进行了集成，开发者只需要在它上面封装的一层API上做二次开发就可以了。这应该是一个不错的点子，不过目前还没有看到商用的成功案例，所以我们在构架选型的时候就没有考虑CDAP。

　　　　因此，围绕Spark + YARN+ Kafka的大数据平台还是首选。由于Spark MLlib的机器学习算法并不丰富好用，因此如果你的产品中需要一些MLlib中没有的算法，就需要自己去找开源实现了。

1.2 生产环境中机器学习单机数据平台的搭建

　　　　生产环境里面如果数据量不大，大数据平台就显得有点over design了，此时我们有更多的选择。首选，仍然是Spark平台，不过我们不需要分布式的容器YARN和分布式数据分发的路由Kafka了。为什么首选还是Spark呢？因为我们要考虑扩展，现在数据量不大，不代表以后数据量不大。这也是我参与的一些小型数据分析项目也是选择Spark的原因。当然我觉得还有一些原因是Spark同时支持了Python, Java, Scala和R。这降低了很多程序员的参与门槛。我参与的Spark项目中，开发语言主要是Java和Scala。Python没有选择是因为一些速度的原因和系统其它部分都是用Java写的。

　　　　第二个选择是以scikit-learn为主的一系列python工具，包括 numpy, scipy, pandas, MatplotLib等等。特点是类库丰富，尤其是scikit-learn的机器学习库，可以说是十八般武器，样样都有。另外就是由于可以交互式的编写程序，方便快速开发原型。我参与的有两个项目在可行性分析阶段，都是用scikit-learn来做原型和给客户做demo。

　　　　因此，生产环境中机器学习单机数据平台， Spark是做产品首选，而scikit-learn家族适合做快速的原型开发验证。

2. 研究环境中机器学习平台的搭建

　　　　如果只是做研究，那么选择就很多了，主流的有三种。

　　　　第一种是基于Spark MLlib来学习。好处是学到的东西用到生产环境可以无缝切换，但是坏处也很明显，Spark东西很多，在自己的单机上跑很吃内存，比较慢，而且MLlib的类库并不丰富，很多算法需要自己再去找类库。根据周围同事的反馈，比较吃力，因此基于Spark MLlib来学习机器学习，我个人觉得不是一个好的选择。

　　　　第二种是基于scikit-learn为主的一系列python工具来学习，包括上面提到的numpy, scipy, pandas, MatplotLib等等。好处是类库多，API强大，可以让你专注于数据的分析，例子也多，学习起来不难。当然也有缺点，就是这一大堆的python库，要熟练的用起来需要一段时间。个人比较推荐这种方法，周围同事来说，用scikit-learn学习交流也是主流。

　　　　第三种是基于R的平台来做机器学习（不包括Spark R），主要平台是R studio。由于R是一门比较老的语言，因此他的数据处理和机器学习的API比较丰富，尤其是对于之前做数据分析师的人来说更是熟悉不过。但是R是一门相对封闭的语言，社区远远没有Python的活跃，而且对于程序员来说， R的那种语法让人难受。几年前，一般会认为R的机器学习比Python的好，但是现在Python已经将R远远甩在了后面。因此，除非你之前已经很熟悉R语言，否则完全不推荐用R来研究机器学习，BTW，这里没有歧视R的意思。

　　　　总之，如果你想研究学习机器学习，并且没有特殊的R背景，scikit-learn是你的首选。当然，有人会说，我喜欢自己去一点点的实现机器学习的算法，不喜欢直接调用类库，这样不行吗？当然，这样肯定是非常不错的，并且对加深各个算法理解很有好处。只是这样比较的花时间，如果你和我一样时间不太多的话，还是直接调用API来研究数据比较直接。

（欢迎转载，转载请注明出处。欢迎沟通交流： liujianping-ok@163.com）

posted @ 2016-10-28 12:15 刘建平Pinard 阅读(24216) 评论(30) 收藏举报

刷新页面返回顶部

刘建平Pinard

十五年码农，对数学统计学，数据挖掘，机器学习，大数据平台，大数据平台应用开发，大数据可视化感兴趣。

机器学习研究与开发平台的选择

1. 生产环境中机器学习平台的搭建

1.1 生产环境中机器学习大数据平台的搭建

1.2 生产环境中机器学习单机数据平台的搭建

2. 研究环境中机器学习平台的搭建

公告