机器学习——分类、回归、聚类、降维
一、分类
朴素贝叶斯
贝叶斯分类法是基于贝叶斯公式(先验概率和后验概率的关系)的统计学分类方法。
它通过预测一个给定的元组属于一个特定类的概率,来进行分类。
logistic回归
logistic回归得出预测值后,根据预测值大小进行分类。(通常是二分类)
决策树
基于树的结构来进行决策
支持向量机SVM Support Vector Machine
在训练集的样本空间寻找一个划分超平面,将不同类别的样本分开。并且最大化分类边界点距离分类平面的距离。
二、回归
线性回归
用直线进行拟合。
逻辑回归
用logistic函数拟合。
三、聚类
(1)基于分层的聚类
AGNES算法
先将每个样本看成一个初始聚类簇,然后在算法运行的每一步中找出距离最近的两个聚类簇进行合并,不断重复,直到达到预设的聚类簇的个数。
(2)基于划分的聚类
k-means算法
首先随机从数据中选k个点,每个点初始代表每个聚类的中心,然后计算剩余各个样本到聚类中心的距离,将它赋给最近的簇,接着重新计算没一簇的平均值,整个过程不断重复,如果相邻两次调整没有明显变化,说明数据聚类形成的簇收敛。
(3)基于密度的聚类
DBSCAN算法
需要两个参数:半径(Eps),以点P为中心的邻域内最少点的数量(MinPts)。若区域内点的数量大于MinPts,就把这些点加入到区域中。
(4)基于网络的聚类
(5)基于模型的聚类
四、降维
主成分分析法(PCA) Principal Component Analysis
通过某种线性投影,将高维的数据映射到低维的空间中表示,并期望在所投影的维度上数据的方差最大,以此使用较少的数据维度(主成分),同时保留住较多的原数据点的特性。
下图中PCA会选择2轴。
LDA Latent Dirichlet Allocation
分类使得:
1、同类的数据点尽可能的接近(within class)
2、不同类的数据点尽可能的分开(between class)
上图中LDA会选择1轴。
局部线性嵌入(LLE) Locally Linear Embedding
非线性降维算法,它能够使降维后的数据较好地保持原有流形结构。
拉普拉斯特征映射