benchm-ml 吐槽 spark大数据

 

摘要

截至2018年1月:

当我在2015年3月开始这个基准测试时,“大数据”炒作风靡一时,粉丝们希望用分布式计算(Hadoop,Spark等)对“大数据”进行机器学习,而对于数据集大多数人来说单机工具不仅足够好,而且速度更快,功能更多,漏洞更少。我在2015年开始的会议和聚会上就这些基准进行了不少讨论,而在开始时我有几个人愤怒地询问我在Spark上的结果,到2017年大多数人都意识到单机工具可以更好地解决他们的大部分ML问题。虽然Spark是原始数据(通常确实是“大”)的ETL的一个不错的工具,但它的ML库完全是垃圾并且表现优异(在训练时间,通过数量级的更好的工具,记忆足迹甚至精确度。此外,过去几年服务器和云中可用RAM的增加,以及机器学习通常将原始数据细化为更小尺寸的数据矩阵的事实使得大多数单机高性能工具(例如xgboost,lightgbm,VW还有h2o)现在是大多数实际应用的最佳选择。大数据炒作终于结束了。大众也是h2o)现在大多数实际应用的最佳选择。大数据炒作终于结束了。大众也是h2o)现在大多数实际应用的最佳选择。大数据炒作终于结束了。

现在正在发生的是新的炒作浪潮,即深度学习。粉丝们现在认为深度学习(或者他们错误地调用它:AI)是所有机器学习问题的最佳解决方案。虽然深度学习确实在几类数据/机器学习问题上非常成功,例如涉及图像,语音和某些文本(监督学习)和游戏/虚拟环境(强化学习),但遇到的更多“传统”机器学习问题在欺诈检测,信用评分或流失(具有结构化/表格数据)等业务中,深度学习并不那么成功,并且它提供的精度低于随机森林或梯度增强机器(GBM)。所以,最近我'更加“专注”和精益,并使用更多现代工具(如docker)使基准更易于维护和重现。此外,最近显而易见的是GPU也可以成为GBM的强大计算平台,新的repo也包括可用GPU实现的基准。

我开始这些基准测试主要是出于好奇和学习的愿望(也是为了能够为我的项目选择好的工具)。这是相当一些经验,我要感谢所有人(特别是工具的开发人员)帮助我调整和充分利用他们的ML工具。作为这项工作的副作用,我有幸被邀请参加几个会议(KDD,R-finance,useR!,eRum,H2O World,Crunch,Predictive Analytics World,EARL,Domino Data Science Popup,Big Data Day)。洛杉矶,布达佩斯数据论坛)和10多个聚会,例如:

  • KDD 邀请演讲 - 实践中的机器学习软件:Quo Vadis? - 加拿大哈利法克斯,2017年8月
  • R in Finance Keynote - No-Bullshit Data Science - 芝加哥,2017年5月
  • 洛杉矶数据科学聚会 - 生产中的机器学习 - 洛杉矶,2017年5月
  • 用户!2016年 - 分析数据集的大小及其对R的影响 - 斯坦福,2016年6月
  • H2O世界 - 基准测试开源ML平台 - 山景城,2015年11月
  • LA机器学习聚会 - 基于ML工具的可扩展性,速度和准确性基准测试 - 洛杉矶,2015年6月

(请参阅代码/幻灯片以及此处的一些视频录制)。这些讲座/材料也可能是掌握这个基准测试结果的最佳位置(如果你想选择最新的那个并总结最多观看我的KDD谈话的 视频)。工作继续进行,期待更多结果......

posted @ 2019-01-08 18:40  Lucas_Yu  阅读(294)  评论(0编辑  收藏  举报