K-Means

什么是聚类分析？聚类算法有哪几种？请选择一种详细描述其计算原理和步骤

聚类分析是一种无监督的学习方法,将一系列有特征无标签的数据划分成有意义或者有用的组(或簇),探索每个组的数据是否有联系.

典型的聚类算法有KMeans,DBSCAN,层次聚类,光谱聚类等.

KMeans算法的计算原理:根据我们设定好的簇的个数k,找出k个最优的质心,并将离这些质心最近的数据分别分配到这些质心所代表的簇中,每一簇通常代表同一类.

KMeans算法的计算步骤:1.创建k个点作为初始质心(通常是随机选择);2.计算质心与数据点之间的距离,将数据点分配到据其最近的簇.3.对每个簇,计算簇中所有点的均值并将均值作为新的质心4.重复步骤2,3,直到簇不再发生变化或者达到最大迭代次数.

K值确定：法1：(轮廓系数)在实际应用中，由于Kmean一般作为数据预处理，或者用于辅助分聚类贴标签。所以k一般不会设置很大。可以通过枚举，令k从2到一个固定值如10，在每个k值上重复运行数次kmeans(避免局部最优解)，并计算当前k的平均轮廓系数，最后选取轮廓系数最大的值对应的k作为最终的集群数目。

优缺点：

优点：

1、算法快速、简单; 2、容易解释 3、聚类效果中上 4、适用于高维

缺陷：

1、对离群点敏感，对噪声点和孤立点很敏感(通过k-centers算法可以解决)

2、 K-means算法中聚类个数k的初始化

3、初始聚类中心的选择，不同的初始点选择可能导致完全不同的聚类结果。

轮廓系数：

轮廓系数（Silhouette Coefficient）结合了聚类的凝聚度（Cohesion）和分离度（Separation），用于评估聚类的效果。该值处于-1~1之间，值越大，表示聚类效果越好。具体计算方法如下：

对于每个样本点i，计算点i与其同一个簇内的所有其他元素距离的平均值，记作a(i)，用于量化簇内的凝聚度。
选取i外的一个簇b，计算i与b中所有点的平均距离，遍历所有其他簇，找到最近的这个平均距离,记作b(i)，即为i的邻居类，用于量化簇之间分离度。
对于样本点i，轮廓系数s(i) = (b(i) – a(i))/max{a(i),b(i)}
计算所有i的轮廓系数，求出平均值即为当前聚类的整体轮廓系数，度量数据聚类的紧密程度

从上面的公式，不难发现若s(i)小于0，说明i与其簇内元素的平均距离小于最近的其他簇，表示聚类效果不好。如果a(i)趋于0，或者b(i)足够大，即a(i)<<b(i)，那么s(i)趋近与1，说明聚类效果比较好。

初始点选择方法：

思想，初始的聚类中心之间相互距离尽可能远.

法1(kmeans++):

1、从输入的数据点集合中随机选择一个点作为第一个聚类中心

2、对于数据集中的每一个点x，计算它与最近聚类中心(指已选择的聚类中心)的距离D(x)

3、选择一个新的数据点作为新的聚类中心，选择的原则是：D(x)较大的点，被选取作为聚类中心的概率较大

4、重复2和3直到k个聚类中心被选出来

5、利用这k个初始的聚类中心来运行标准的k-means算法

从上面的算法描述上可以看到，算法的关键是第3步，如何将D(x)反映到点被选择的概率上，一种算法如下：

1、先从我们的数据库随机挑个随机点当“种子点”

2、对于每个点，我们都计算其和最近的一个“种子点”的距离D(x)并保存在一个数组里，然后把这些距离加起来得到Sum(D(x))。

3、然后，再取一个随机值，用权重的方式来取计算下一个“种子点”。这个算法的实现是，先取一个能落在Sum(D(x))中的随机值Random，然后用Random -= D(x)，直到其<=0，此时的点就是下一个“种子点”。

4、重复2和3直到k个聚类中心被选出来

5、利用这k个初始的聚类中心来运行标准的k-means算法

法2：选用层次聚类或Canopy算法进行初始聚类，然后从k个类别中分别随机选取k个点

，来作为kmeans的初始聚类中心点

https://www.cnblogs.com/dudumiaomiao/p/5839905.html 原理 K值确定轮廓系数评价聚类效果

posted @ 2020-03-20 16:22 少年奶油喵阅读(209) 评论(0) 编辑收藏举报

刷新页面返回顶部

少年奶油喵

K-Means

公告