机器学习14种常见算法

最近收到一封公司内部邮件，说，有个机器人程序——**小助手，上线（不知道哪个部门写的），让大家没事的时候，测试，顺便让程序学习一下，超过 50 条聊天，有抽奖机会~我大概试了一下，有点无语，这写得是个神马玩意啊，这么烂，基本聊不上 3 句，最多也就是，“你是谁”，“多大了”，即便我顺着程序说，也是驴唇不对马嘴~你要是让程序学习，互联网这么大，还用得着让人来吗，即便让人来，自己也得差不多才行啊，连个雏形都没有，还好意思让大家测试，美其名曰：让程序学习~

机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。这里总结一下常见的机器学习算法，以供您在工作和学习中参考。

机器学习的算法很多，包括算法以及从它们中的延伸。下面，从两个方面介绍，第一个方面是学习方式，第二个方面是算法的类似性。

学习方式

根据数据类型的不同，对一个问题的建模有不同的方式。在机器学习或者人工智能领域，人们首先会考虑算法的学习方式。将算法按照学习方式分类，可以让人们在建模和算法选择的时候考虑能根据输入数据来选择最合适的算法来获得最好的结果。

监督式学习

在监督式学习下，输入数据被称为“训练数据”，每组训练数据有一个明确的标识或结果，例如，防垃圾邮件系统，识别手写数字识等。在建立预测模型的时候，监督式学习建立一个学习过程，将预测结果与“训练数据”的实际结果进行比较，不断的调整预测模型，直到模型的预测结果达到一个预期的准确率。监督式学习的常见应用场景如分类问题和回归问题。常见算法有：

逻辑回归（Logistic Regression）
反向传递神经网络（Back Propagation Neural Network）

非监督式学习

在此学习方式下，输入数据部分被标识，部分没有被标识，这种模型可以用来进行预测，但模型首先需要学习数据的内在结构以便合理的组织数据来进行预测。应用场景包括分类和回归，算法包括一些对常用监督式学习算法的延伸，首先试图对未标识数据进行建模，在此基础上再对标识的数据进行预测。

图论推理算法（Graph Inference）
拉普拉斯支持向量机（Laplacian SVM.）

强化学习

在这种模式下，输入数据作为对模型的反馈，不像监督模型那样，输入数据仅仅是作为一个检查模型对错的方式，在强化学习下，输入数据直接反馈到模型，模型必须对此立刻作出调整。常见的应用场景包括动态系统以及机器人控制等。常见算法包括Q-Learning以及时间差学习（Temporal difference learning）

在企业数据应用的场景下，人们最常用的可能就是监督式学习和非监督式学习的模型。在图像识别等领域，由于存在大量的非标识的数据和少量的可标识数据，目前半监督式学习是一个很热的话题。而强化学习更多的应用在机器人控制及其他需要进行系统控制的领域。

算法类似性

根据算法的功能和形式的类似性把算法分类，比如说基于树的算法，基于神经网络的算法等等。当然，机器学习的范围非常庞大，有些算法很难明确归类到某一类。而对于有些分类来说，同一分类的算法可以针对不同类型的问题。这里，我们尽量把常用的算法按照最容易理解的方式进行分类。

回归算法

回归算法是试图采用对误差的衡量来探索变量之间的关系的一类算法。回归算法是统计机器学习的利器。在机器学习领域，人们说起回归，有时候是指一类问题，有时候是指一类算法，这一点常常会使初学者有所困惑。常见的回归算法包括：

最小二乘法（Ordinary Least Square）
逻辑回归（Logistic Regression）
逐步式回归（Stepwise Regression）
多元自适应回归样条（Multivariate Adaptive Regression Splines）
本地散点平滑估计（Locally Estimated Scatterplot Smoothing）

基于实例的算法

基于实例的算法常常用来对决策问题建立模型，这样的模型常常先选取一批样本数据，然后根据某些近似性把新数据与样本数据进行比较。通过这种方式来寻找最佳的匹配。因此，基于实例的算法常常也被称为“赢家通吃”学习或者“基于记忆的学习”。常见的算法包括：

k-Nearest Neighbor(KNN)
学习矢量量化（Learning Vector Quantization， LVQ）
自组织映射算法（Self-Organizing Map ， SOM）

正则化方法

正则化方法是其他算法（通常是回归算法）的延伸，根据算法的复杂度对算法进行调整。正则化方法通常对简单模型予以奖励而对复杂算法予以惩罚。常见的算法包括：

Ridge Regression
Least Absolute Shrinkage and Selection Operator（LASSO）
弹性网络（Elastic Net）

决策树学习

决策树算法根据数据的属性采用树状结构建立决策模型，决策树模型常常用来解决分类和回归问题。常见的算法包括：分类及回归树（Classification And Regression Tree， CART）， ID3 (Iterative Dichotomiser 3)， C4.5， Chi-squared Automatic Interaction Detection(CHAID)， Decision Stump，随机森林（Random Forest），多元自适应回归样条（MARS）以及梯度推进机（Gradient Boosting Machine， GBM）