聚类算法：K-means 算法(k均值算法) - 华东博客

k-means算法：

第一步：选$K$个初始聚类中心，$z_1(1),z_2(1),\cdots,z_k(1)$，其中括号内的序号为寻找聚类中心的迭代运算的次序号.

聚类中心的向量值可任意设定，例如可选开始的$K$个模式样本的向量值作为初始聚类中心。

第二步：逐个将需分类的模式样本$\{x\}$按最小距离准则分配给$K$个聚类中心中的某一个$z_j(1)$。假设$i=j$时，

\[
D_j (k) = \min \{ \left\| {x - z_i (k)} \right\|,i = 1,2, \cdots K\}
\]

则$x\in S_j(k)$，其中$k$为迭代运算的次序号，第一次迭代$k=1$，$S_j$表示第$j$个聚类，其聚类中心为$z_j$。

第三步：计算各个聚类中心的新的向量值，$z_j(k+1),j=1,2,\cdots,K$，求各聚类域中所包含样本的均值向量：

\[
\begin{array}{*{20}c}
{z_j (k + 1) = \frac{1}{{N_j }}\sum\limits_{x \in S_j (k)} x ,} & {j = 1,2, \cdots ,K} \\
\end{array},
\]

其中$N_j$为第$j$个聚类域$S_j$中所包含的样本个数。以均值向量作为新的聚类中心，可使如下聚类准则函数最小：

\[
\begin{array}{*{20}c}
{J_j = \sum\limits_{x \in S_j (k)} {\left\| {x - z_j (k + 1)} \right\|^2 } ,} & {j = 1,2, \cdots ,K} \\
\end{array}
\]

在这一步中要分别计算$K$个聚类中的样本均值向量，所以称之为$K$-均值算法。

第四步：若$z_j(k+1)\neq z_j(k),j=1,2,\cdots,K$，则返回第二步，将模式样本逐个重新分类，重复迭代运算；若$z_j(k+1)=z_j(k),j=1,2,\cdots,k$，则算法收敛，计算结束。

第一步：取$K=2$，并选

$z_1(1)=x_1=(0 0)^T, z_2(1)=x_2=(1 0)^T$

第二步：因$||x_1-z_1(1)||<||x_1-z_2(1)||$，故$x_1\in S_1(1)$

因$||x_2-z_1(1)||>||x_2-z_2(1)||$，故$x_2\in S_2(1)$

因$||x_3-z_1(1)||<||x_3-z_2(1)||$，故$x_3\in S_1(1)$

……

得到：

S₁(1)={x₁, x₃}, S₂(1)={x₂, x₄, x₅, …, x₂₀}

第三步：计算新的聚类中心

第四步：因$z_j(2)\neq z_j(1),j=1,2$，返回第二步；

第二步（返回1）：由新的聚类中心，得到：

因此

$S_1(2)=\{x_1, x_2,\cdots, x_8\}$

$S_2(2)=\{x_9, x_{10}, \cdots, x_{20}\}$

第三步（返回1）：计算聚类中心

第四步（返回1）：因$z_j(3)\neq z_j(2),j=1,2$，返回第二步；

第二步（返回2）：分类结果与前一次迭代的结果相同，即$S_1(4)=S_1(3)，S_2(4)= S_2(3)$；

第三步（返回2）：聚类中心与前一次迭代的结果相同；

第四步（返回2）：因$z_j(4)=z_j(3),j=1,2$，算法收敛，得到最终的聚类中心。

posted on 2014-11-16 20:08 华东博客阅读(1545) 评论(0) 编辑收藏举报

刷新页面返回顶部