就是在已知要分为4类之后，将K=4，随便找到4个点，计算每个原始点的到这四个点中心的距离，选择距离最近的点归类，这就有4类点，再在这些点内部计算每一点的质心，这就有了新的4个点，再对所有点计算到这四个点的距离，然后比较，以此类推。

处理数值数据

========================================================

L-medoid聚类方法

即若K=2，则选择原始数据中的某两个点作为原始medoids，计算每个点到该点的距离，形成两个簇，再选择一个非之前的点作为medoid，如果花费得到改善则将medoid值替换为改点，如果没有得到改善则不变。

处理分类数据

对PAM的评论

在存在噪声和异常值的情况下，pam比k均值更健壮，因为Medoid受异常值或其他极值的影响小于k-means。因为medoid是基于数据排序，PAM有效地适用于小型数据集，但对于大型数据集，PAM不能很好地扩展，因为迭代次数较多，每个迭代的O(k(n-k)2)。

=====================================================

分类数据和数值数据的混合：K-prototype

================================================

CLARA集群大型应用程序

它绘制数据集的多个样本，对每个样本应用PAM，并给出最佳的聚类作为输出。

优点：处理比PAM更大的数据集。

劣势：效率取决于样本量。

-如果样本被偏置，则基于样本的良好聚类不一定代表整个数据集的良好聚类

即将原来的所有样本划分为更小单元，即单个样本来进行PAM

==================================================

分层群聚

使用距离矩阵作为聚类准则。此方法不需要将群集k的数目作为输入，而是需要一个终止条件。

给定一组待聚类的项目和NxN距离(或相似度)矩阵，基本过程分层聚类是这样的：

就像哈弗曼树得到的过程一样。

=====================================================

DA用于通过距离度量来标识对象组之间的边界。

在方差分析中，自变量是分类变量，因变量是连续变量。

在判别分析中，自变量是连续变量，因变量是分类变量。

DA分析的前提：

离群值的影响：判别分析对离群点的包含非常敏感，因为这会加大方差，凡是加

大方差的操作对于DA分析都是致命打击。

非线性：如果其中一个自变量与另一个独立变量高度相关，或者一个是其他独立变量的函数(例如和)，那么矩阵就没有唯一的判别解。即没有鉴别函数能解决这个问题。

========================================

判别分析与聚类

判别分析：

已知的类数量

基于训练集

用于对未来的观测进行分类

分类是监督学习的一种形式：Y =X1 + X2 + X3，即有target

聚类：

未知类数

无先验知识

用于理解(探索)数据

聚类是一种无监督学习形式：X1 + X2 + X3，即没有target

posted on 2019-12-11 20:52 YUANya 阅读(830) 评论(0) 编辑收藏举报

刷新页面返回顶部

导航