聚类之k-means

1、介绍

k-means算法以k为参数（所期望的簇的个数），把n个对象分成k个簇（单层划分），用质心（数据点的平均值）定义簇的原型。使得簇内具有较高的相似度，而簇间的相似度较低。

通过聚类，我们能够发现数据对象之间的关系。簇内的相似度越高，簇间的相似度越低，聚类效果越好。

①随机选择k个点作为初始的聚类中心。

②对于剩下的点，根据其与聚类中心的距离，将其归入最近的簇，形成k个簇。

③对每个簇，计算所有点的均值作为新的聚类中心。

④重复②、③，直到聚类中心不再改变。

①可能收敛于局部最小值，在大规模数据中收敛较慢。

②k值需要预先给定，属于先验知识。

③对初始选取的聚类中心敏感。这会导致①。

④并不适合所有的数据类型，比如不能处理非球形簇。

⑤对含离群点的数据处理时存在问题。

为了克服k-means收敛于局部最小值的问题，可以采用二分k-means(bisecting K-means).

①将所有样本看成一个簇。

②当簇小于k时，对于每个簇i，计算总误差，在簇i上进行2-means聚类，再计算该簇划分为两个簇后的总误差，选择误差最小的簇进行划分。

posted @ 2019-03-12 11:50 萌萌的美男子阅读(415) 评论(0) 收藏举报

刷新页面返回顶部