机器学习常见算法分类与简述


**什么是人工智能、机器学习与深度学习? **
人工智能的简洁定义如下:努力将通常由人类完成的智力任务自动化。
机器学习指自我学习执行特定任务。他和深度学习的核心问题都在于有意义地变换数据。
深度学习是机器学习的一个分支领域 : 它是从数据中学习表示的一种新方法,强调从连续的层(layer)中进行学习。


作为入门学习者,经常搞混一些概念和层级,在本篇文章中将梳理一下这些层级关系,简述各个算法的大概内容,建立起框架性的理解。

下面我将从机器学习的方法和机器学习算法两方面开始。

机器学习问题的四个分支



  1. 监督学习

监督学习是目前最常见的机器学习类型。给定一组样本( 通常由人工标注,有一个明确的标识或结果 ),它可以学会将输入数据映射到已知目标。近年来广受关注的深度学习应用几乎都属于监督学习,比如字符识别、语音识别、 图像分类和语言翻译。

监督学习主要包括分类和回归,分类问题也分为多标签多分类、单标签单分类等。

  1. 无监督学习

无监督学习是指在没有目标的情况下寻找输入数据的有趣变换,无监督学习主要包括聚类、降维。

  1. 自监督学习

自监督学习是监督学习的一个特例,它与众不同,值得单独归为一类。自监督学习是没有人工标注的标签的监督学习,你可以将它看作没有人类参与的监督学习。标签从输入数据中生成的。

  1. 强化学习

在强化学习下,输入数据作为对模型的反馈,模型对此立刻作出优化调整。


机器学习算法分类


机器学习的范围非常庞大,算法多而杂,有些算法很难明确归类到某一类。而对于有些分类来说,同一分类的算法可以针对不同类型的问题。

接下来将叙述这些算法的大概思路。

  • 核方法

核方法是一组分类算法,其中最有名的就是支持向量机SVM(Support Vector Machine)

SVM 的目标是通过把输入数据映射到一个高阶的向量空间,在新的表示空间中找到良好的决策超平面,来解决分类问题。

但是,SVM 很难扩展到大型数据集,计算量大,效率会很低;其次,需要找合适的核函数。

  • 决策树、随机森林与梯度提升机

这三种算法具有相似的性质,根据数据的属性采用树状结构建立决策模型。

梯度提升机得到的模型与随机森林具有相似的性质,但在绝大多数情况下效果都比随机森林要好,因为运用了梯度提升方法。和深度学习一样,它也是 Kaggle 竞赛中最常用的技术之一。

  • 逻辑回归 (logistic regression)

logistic 回归 (logistic regression,简称 logreg),它有时被认为是 现代机器学习的“hello world”。logreg 是一种分类算法,而不是回归算法。

  • 贝叶斯算法

贝叶斯算法是基于贝叶斯定理的一类算法,主要用来解决分类和回归问题。贝叶斯算法是基于贝叶斯定理的一类算法,主要用来解决分类和回归问题。常见算法包括:朴素贝叶斯算法

  • KNN(K Nearest Neighbor) K近邻

K-近邻是一种分类算法,其思路是:如果一个样本在特征空间中的k个最相似 ( 即特征空间中最邻近 ) 的样本中的大多数属于某一个类别,则该样本也属于这个类别。

  • 神经网络

神经网络是机器学习的一个庞大的分支,有几百种不同的算法。(其中深度学习就是其中的一类算法)

他起源于上世纪,当时叫感知机(perceptron),拥有输入层、输出层和一个隐含层。随着数学的发展,发明了多层感知机,进入20世纪后,隐含层不断增多,神经网络真正意义上有了“深度”,由此揭开了深度学习的热潮。然后出现了CNN、RNN、LSTM等结构。通常将深度学习划分为监督学习,但实际上无监督学习也可以使用深度学习。

  • 聚类算法

聚类算法是将一系列对象分组的任务。所有的聚类算法都试图找到数据的内在结构,以便按照最大的共同点将数据进行归类,使相同组(集群)中的对象之间比其他组的对象更相似。

  • 降维算法

降低维度算法将原高维空间中的数据点映射到低维度的空间中。以非监督学习的方式试图利用较少的信息来归纳或者解释数据。

posted @ 2020-05-24 23:44  _LLLL  阅读(1638)  评论(0编辑  收藏  举报