百面机器学习-非监督学习

1、非监督学习主要包括两大类学习方法：数据聚类和特征变量关联。聚类是通过多次迭代来找到数据的最优的分割，特征变量关联则是利用各种相关性分析方法来找到变量之间的关系。

分类：类别已知聚类：是在不知道不知道类别标签的情况下，通过数据之间的内在关系，把样本分为若干类别，使得同类别样本之间的相似度高，不同类别的的样本相似度低。

K均值聚类，是最基础的和最常用的聚类方法，通过迭代方式找到K个簇的一种划分方案，使得聚类结果对应的代价函数最小，代价函数可以定义为各个样本距离所属簇中心点的误差平方和

K均值算法的步骤-1、数据预处理，如归一化，离散化处理 2、随机取K个簇中心，记为u1,u2,....uk 3、定义代价函数 4、令t=0,1,2...为迭代步数，直到J收敛

2、K均值算法的优缺点：

优点：对于大数据集，K均值聚类算法相对是可伸缩和高效的。

缺点：易受初始值和离散点的影响，导致每次结果不稳定，不是全局而是局部最优解。无法解决数据簇分布差别比较大的情况。不太适用于离散分类。

K均值算法的调优的角度：

1、数据归一化和离散化处理（方法是基于欧式距离的，均值和方差对聚类结果产生影响）

2、合理选择K值（K值的选择是K均值聚类最大的问题之一）

3、采用核函数（核聚类方法的主要思想是通过一个非线性映射，将输入空间的数据点映射到高位的特征空间中，并在新的特征空间中进行聚类）

高斯混合模型：

高斯混合模型也是一种常见的聚类方法，与K均值方法类似，采用EM算法进行迭代计算，高斯混合模型假设每个簇都符合高斯帆布，当前数据呈现的分布是各个簇叠加的效果。

高斯混合分布可以拟合出任意类型的分布。

高斯混合模型和K均值算法的相同点是，他们都可以用于聚类算法，都需要指定K值，都是使用EM算法来求解，但往往智能收敛于局部最优，相比K均值，可以给出一个样本属于某类的概率是多少，还可用于概率估计，并且可用于生成新的样本点。

自组织映射神经网络：

是无监督学习的方法的一种，可以用作聚类，高维可视化，数据压缩，特征提取。

学习过程可分为以下几个过程1、初始化 2、竞争 3、合作4、适应5、迭代

自组织映射神经网络与K均值算法的区别如下：

1、K均值受K值的影响大一些，自组织映射神经网络小一些

2、K均值准确性相对高，但是易受noise data影响

3、自组织映射神经网络可视化比较好

设计过程：1、设定输出层神经元的个数2、设计输出层的节点的排列3、初始化权值4、设计拓补领域5、设计学习率

聚类算法的评估：

（1）、估计聚类趋势

（2）、判定数据簇数

（3）、测定聚类质量

posted @ 2020-07-31 18:54 19l92y11p26 阅读(161) 评论(0) 编辑收藏举报

刷新页面返回顶部

lyp19921126