机器学习十大算法 - 三分零一秒

机器学习十大算法

机器学习算法通常可以被分为三类---监督式学习、非监督式学习和强化学习

监督式学习主要用于一部分数据集（训练数据）有某些可以获取的熟悉（标签），但剩余的样本缺少并且需要预测的场景。
非监督式学习：主要用于从未标注数据集中挖掘相互之间的隐含关系。
强化学习：介于两者之间—每一步预测或者行为都或多或少有一些反馈信息，但没有明确的标签或者错误提示。

监督式学习

1、决策树：

决策树是一种决策支持工具，它使用树状图或者树状模型来表示决策过程以及后续得到的结果，包括概论时间结果等。请观察下图来理解决策树的结构。

从商业决策的角度来看，决策树就是通过尽可能少的是非判断问题来预测决策正确的概率。这种方法可以帮你用一种结构性的、系统性的方法来得出合理的结构。

2、朴素贝叶斯分类器

朴素贝叶斯分类器是一类基于贝叶斯理论的简单的概率分类器，它假设特征之前是相互独立的。下图所示的就是公式—P(A|B)表示后延概率，p(B|A)是似然值，p(A)是类别的先验概率，p(B)代表预测器的先验概率。

现实场景中的一些例子包括：

-检测垃圾电子邮件

-将新闻分为科技、政治、体育等类别

-批判一段文字表达积极的情绪还是消极的情绪

-用于人脸检测软件

3、最小平方回归

最小平方回归是求线性回归的一种方法。“最小平方“的策略相当于你画一条直线，然后计算每个点到直线的垂直距离，最后把各个距离求和；最佳拟合的直线就是距离和最小的那一条。

线性指的是用于拟合数据的数据，而最小平方指的是待优化的损失函数。

4、逻辑回归：

逻辑回归模型是一种强大的统计建模方式，它用一个或多个解释性变量对二值输出结果建模。它用逻辑斯蒂函数估计概率值，以此衡量分类依赖变量和一个或多个独立的变量之间的关系，这属于累计的逻辑斯蒂分布。

通常来说，逻辑回归模型在现实场景中的应用包括：

信用评分
预测商业活动的成功概率
预测某款产品的收益
预测某一天发生地震的概率

5、支持向量机：

支持向量机是一种二分类算法。在N维空间中给定两类点，支持向量机生成一个

（N-1）维的超平面将这些点分为两类。举个例子，比如在纸上有两类线性可分的点。支持向量机会寻找一条直线将这两类点区分开来，并且与这些点的距离都尽可能远。

利用支持向量机（结合具体应用场景做了改进）解决的大规模问题包括展示广告、人体结合部位识别、基于图像的性别检查、大规模图像分类等。。。

6、集成方法：

集成方法是先构建一组分类器，然后用各个分类器带权重的投票来预测新数据的算法。最初的集成方法是贝叶斯平均，但最新的算法包括误差纠正输出编码和提升算法。

那么集成模型的原理是什么，以及它为什么比独立模型的效果好呢？

它们消除了偏置的影响：比如把民主党的问卷和共和党的问卷混合，从中得到的将是一个不伦不类的偏中立的信息。
它们能减少预测的方差：多个模型聚合后的预测结果比单一模型的预测结果更稳定。在金融界，这被称为是多样化---多个股票的混合产品波动总是远小于单个股票的波动。这也解释了为何增加训练数据，模型的效果会变得更好。
它们不容易产生过拟合：如果单个模型不会产生过拟合，那么将每个模型的预测结果简单地组合（取均值、加权平均、逻辑回归），没有理由产生过拟合。

非监督式学习

7、聚类算法

聚类算法就是将一堆数据进行处理，根据它们的相似性对数据进行聚类。

聚类算法有很多种，具体如下：中心聚类、关联聚类、密度聚类、概率聚类、降维、神经网络/深度学习

8、主成分分析（PCA）

主成分分析是利用正交变换将一些列可能相关数据转换为线性无关数据，从而找到主成分。PCA主要用于简单学习与可视化中数据压缩、简化。但是PCA有一定的局限性，它需要你拥有特定领域的相关知识。对噪音比较多的数据并不适用。

9、 SVD矩阵分解

SVD矩阵是一个复杂的实复负数矩阵，给定一个m行、n列的矩阵M，那么M矩阵可以分解为M=UΣV。U和V是m * m阶矩阵，Σ是半正定m * n阶对角矩阵

10、独立成分分析（ICA）

独立成分分析是一种利用统计原理进行计算来揭示随机变量、测量值或者信号背后的隐藏因素的方法。独立成分分析算法给所观察到的多变量数据定义了一个生成模型，通常这些变量是大批量的样本。在该模型中，数据变量被假定为一些未知的潜变量的线性混合，而且混合系统也未知。潜变量被假定是非高斯和相互独立的，它们被称为所观察到的数据的独立分量。

独立成分分析和主成分分析有关联，但它是一个更强大的技术。它能够在这些经典方法失效时仍旧找到数据源的潜在因素。它的应用包括数字图像，文档数据库，经济指标和心理测量。

posted on 2018-04-22 13:56 三分零一秒阅读(428) 评论(0) 收藏举报

刷新页面返回顶部