机器学习——分类、回归、聚类、降维

一、分类

　　朴素贝叶斯

　　贝叶斯分类法是基于贝叶斯公式（先验概率和后验概率的关系）的统计学分类方法。

　　它通过预测一个给定的元组属于一个特定类的概率，来进行分类。

　　logistic回归

　　logistic回归得出预测值后，根据预测值大小进行分类。（通常是二分类）

　　决策树

　　基于树的结构来进行决策

　　支持向量机SVM Support Vector Machine

　　在训练集的样本空间寻找一个划分超平面，将不同类别的样本分开。并且最大化分类边界点距离分类平面的距离。

二、回归

线性回归

用直线进行拟合。

逻辑回归

用logistic函数拟合。

三、聚类

（1）基于分层的聚类

　　AGNES算法

　　先将每个样本看成一个初始聚类簇，然后在算法运行的每一步中找出距离最近的两个聚类簇进行合并，不断重复，直到达到预设的聚类簇的个数。

（2）基于划分的聚类

　　k-means算法

　　首先随机从数据中选k个点，每个点初始代表每个聚类的中心，然后计算剩余各个样本到聚类中心的距离，将它赋给最近的簇，接着重新计算没一簇的平均值，整个过程不断重复，如果相邻两次调整没有明显变化，说明数据聚类形成的簇收敛。

（3）基于密度的聚类

　　DBSCAN算法

需要两个参数：半径（Eps），以点P为中心的邻域内最少点的数量（MinPts）。若区域内点的数量大于MinPts，就把这些点加入到区域中。

（4）基于网络的聚类

（5）基于模型的聚类

四、降维

主成分分析法（PCA） Principal Component Analysis

通过某种线性投影，将高维的数据映射到低维的空间中表示，并期望在所投影的维度上数据的方差最大，以此使用较少的数据维度（主成分），同时保留住较多的原数据点的特性。

下图中PCA会选择2轴。

LDA Latent Dirichlet Allocation

分类使得：

1、同类的数据点尽可能的接近（within class）

2、不同类的数据点尽可能的分开（between class）

上图中LDA会选择1轴。

局部线性嵌入（LLE） Locally Linear Embedding

非线性降维算法，它能够使降维后的数据较好地保持原有流形结构。

拉普拉斯特征映射

posted @ 2017-11-28 20:03 farmerspring 阅读(2933) 评论(0) 编辑收藏举报

farmerspring