更快找到正确的机器学习算法

(此文章同时发表在本人微信公众号“dotNET每日精华文章”,欢迎右边二维码来关注。)

题记:机器学习无疑是现在一个高大上的热点,而且微软在Azure提供了机器学习的服务。那么如何更快找到正确的机器学习算法呢?微软也给大家提供了建议。

随着大数据的深入应用,机器学习也从学术界逐步走入到工业界,现在电子商务、社交、广告、智能硬件都有机器学习的身影。微软作为一家有着深厚科研实力的公司,不仅在Azure中提供了机器学习的服务供大家选用,还提供了一个名为Azure Machine Learning Studio的在线工具让大家更方便的学习和使用机器学习。

这个工具提供了大量的算法让你用于自己的分析解决方案当中,这些算法大致分为如下几类:回归、归类、聚集、异常检测。每种算法都是为了解决机器学习中遇到的特定问题而设计的。那么问题来了,如何为自己的问题选择正确的算法呢?微软在《Microsoft Azure Machine Learning Algorithm Cheat Sheet》给我们提供了一个很好的指南。这是一个选择流程图,大致流程文字描述如下:

  1. 是否要预测未来的数据点
  2. 如果否,那么选择聚集算法(只有k近邻算法可选)
  3. 如果是,那么看要预测的是分类还是值
  4. 如果是值,那么需要到回归类别的算法中去选用
  5. 如果是分类,还要看分类数量
  6. 大于两类,那么需要到多级归类类别的算法中去选用
  7. 小于两类,要到异常检测算法中去选用
  8. 等于两类,要到两级归类类别的算法中去选用

当然整个流程图远不是以上简单文字能完全解释清楚的,有兴趣深入研究的读者可以“阅读原文”来访问这个文档的介绍页面。在这个页面中,也有这个流程图的pdf格式下载。

原文地址:http://azure.microsoft.com/en-us/documentation/articles/machine-learning-algorithm-cheat-sheet

posted @ 2015-05-24 22:27  朱永光  阅读(366)  评论(0编辑  收藏  举报