中小规模机器学习的问题
https://mp.weixin.qq.com/s/-sHu8yAhKBCBfXkBIfCnuQ
具体而言,Hadoop 和 Spark 虽然提供了一些同步和粗粒度运算符(例如,Map,Reduce 和 Join 等),但主要还停留在解决中小规模机器学习的问题。GraphLab/GraphX 主要是为了图存储和计算,并不适用于普通的大规模机器学习算法。MPI 虽然能够支持普通的分布式计算,但其缺乏容错机制。特别是在 worker 很大的情况下,MPI 的运行成功率会大大降低,如图1所示。