K-Means

一、聚类算法

1、常见的聚类算法(待)

二、K均值

1、步骤

(1)随机选取K个质心

(2)分别计算每个样本与这K个质心的距离,将样本分配到距其最近的簇

(3)对K个簇分别取均值,重新选择质心。所谓的取均值就是分别对每个特征取均值,这样就会计算出一个新的数据点,将此数据点作为质心

(4)重复(2)-(3),直至质心没有变化

2、如何选取K?(待)

3、如何提高聚类性能?

目标:在保持K不变的情况下提高簇的质量

(1)将具有最大SSE的簇一分为2

(2)之后再合并两个簇:

  法1:合并最近的质心,求取每对质心之间的距离

  法2:合并使得SSE增幅最小的质心,需要求取合并每对质心后SSE的值

三、二分k均值算法---对K均值的一种优化

1、步骤

(1)将所有数据点看成一个簇

(2)将该簇一分为2

(3)选择其中一个簇继续进行2分

(4)重复,直到簇的个数为K

2、如何选取进行划分的簇?

原则:最大程度降低误差平方和(SSE)----每个样本与质心距离的平方的总和

 

posted @ 2014-12-24 01:38  李闹闹童鞋  阅读(153)  评论(0编辑  收藏  举报