机器学习——分类、回归、聚类、降维

 

一、分类

  朴素贝叶斯

   贝叶斯分类法是基于贝叶斯公式(先验概率和后验概率的关系的统计学分类方法。

  它通过预测一个给定的元组属于一个特定类的概率,来进行分类。

  logistic回归

   logistic回归得出预测值后,根据预测值大小进行分类。(通常是二分类)

  决策树

  基于树的结构来进行决策

 

  支持向量机SVM  Support Vector Machine

   在训练集的样本空间寻找一个划分超平面,将不同类别的样本分开。并且最大化分类边界点距离分类平面的距离。

 

二、回归

 线性回归

直线进行拟合。

逻辑回归

用logistic函数拟合。

 

三、聚类

(1)基于分层的聚类

  AGNES算法 

  先将每个样本看成一个初始聚类簇,然后在算法运行的每一步中找出距离最近的两个聚类簇进行合并,不断重复,直到达到预设的聚类簇的个数。

(2)基于划分的聚类

  k-means算法

  首先随机从数据中选k个点,每个点初始代表每个聚类的中心,然后计算剩余各个样本到聚类中心的距离,将它赋给最近的簇,接着重新计算没一簇的平均值,整个过程不断重复,如果相邻两次调整没有明显变化,说明数据聚类形成的簇收敛。

(3)基于密度的聚类

  DBSCAN算法

需要两个参数:半径(Eps),以点P为中心的邻域内最少点的数量(MinPts)。若区域内点的数量大于MinPts,就把这些点加入到区域中。

(4)基于网络的聚类

(5)基于模型的聚类

 

四、降维

主成分分析法(PCA)  Principal Component Analysis

通过某种线性投影,将高维的数据映射到低维的空间中表示,并期望在所投影的维度上数据的方差最大,以此使用较少的数据维度(主成分),同时保留住较多的原数据点的特性。

下图中PCA会选择2轴。

LDA  Latent Dirichlet Allocation

 分类使得:

1、同类的数据点尽可能的接近(within class)

2、不同类的数据点尽可能的分开(between class)

上图中LDA会选择1轴。

 

局部线性嵌入(LLE)  Locally Linear Embedding

 非线性降维算法,它能够使降维后的数据较好地保持原有流形结构

 

拉普拉斯特征映射

 

posted @ 2017-11-28 20:03  farmerspring  阅读(2829)  评论(0编辑  收藏  举报