更快找到正确的机器学习算法
(此文章同时发表在本人微信公众号“dotNET每日精华文章”,欢迎右边二维码来关注。)
题记:机器学习无疑是现在一个高大上的热点,而且微软在Azure提供了机器学习的服务。那么如何更快找到正确的机器学习算法呢?微软也给大家提供了建议。
随着大数据的深入应用,机器学习也从学术界逐步走入到工业界,现在电子商务、社交、广告、智能硬件都有机器学习的身影。微软作为一家有着深厚科研实力的公司,不仅在Azure中提供了机器学习的服务供大家选用,还提供了一个名为Azure Machine Learning Studio的在线工具让大家更方便的学习和使用机器学习。
这个工具提供了大量的算法让你用于自己的分析解决方案当中,这些算法大致分为如下几类:回归、归类、聚集、异常检测。每种算法都是为了解决机器学习中遇到的特定问题而设计的。那么问题来了,如何为自己的问题选择正确的算法呢?微软在《Microsoft Azure Machine Learning Algorithm Cheat Sheet》给我们提供了一个很好的指南。这是一个选择流程图,大致流程文字描述如下:
- 是否要预测未来的数据点
- 如果否,那么选择聚集算法(只有k近邻算法可选)
- 如果是,那么看要预测的是分类还是值
- 如果是值,那么需要到回归类别的算法中去选用
- 如果是分类,还要看分类数量
- 大于两类,那么需要到多级归类类别的算法中去选用
- 小于两类,要到异常检测算法中去选用
- 等于两类,要到两级归类类别的算法中去选用
当然整个流程图远不是以上简单文字能完全解释清楚的,有兴趣深入研究的读者可以“阅读原文”来访问这个文档的介绍页面。在这个页面中,也有这个流程图的pdf格式下载。
原文地址:http://azure.microsoft.com/en-us/documentation/articles/machine-learning-algorithm-cheat-sheet