乞力马扎罗的雪顶  

序言

K-means算法是非监督学习(unsupervised learning)中最简单也是最常用的一种聚类算法,具有的特点是:

对初始化敏感。初始点选择的不同,可能会产生不同的聚类结果
最终会收敛。不管初始点如何选择,最终都会收敛。

K-means算法

实际上,无论是从算法思想,还是具体实现上,K-means算法是一种很简单的算法。它属于无监督分类,通过按照一定的方式度量样本之间的相似度,通过迭代更新聚类中心,当聚类中心不再移动或移动差值小于阈值时,则就样本分为不同的类别。

1 算法思路

  1. 随机选取聚类中心
  2. 根据当前聚类中心,利用选定的度量方式,分类所有样本点
  3. 计算当前每一类的样本点的均值,作为下一次迭代的聚类中心
  4. 计算下一次迭代的聚类中心与当前聚类中心的差距
  5. 如4中的差距小于给定迭代阈值时,迭代结束。反之,至2继续下一次迭代

2 度量方式

根据聚类中心,将所有样本点分为最相似的类别。这需要一个有效的盘踞,平方差是最常用的度量方式,如下

c^{(i)} :=\min _{j}\left\|x^{(i)}-\mu_{j}\right\|^{2}

  • x^{(i)}为样本点,i = 1,\dots, n,共n个样本点
  • c^{(i)}x^{(i)}最相似的类别,即x^{(i)}被分类至该类
  • \mu_{j}为聚类中心,j= 1,\dots, k,共k个类别

3 代码实现(图像)

 1 import numpy as np
 2 import random
 3 def loss_function(present_center, pre_center):
 4     '''
 5     损失函数,计算上一次与当前聚类中的差异(像素差的平方和)
 6     :param present_center: 当前聚类中心
 7     :param pre_center: 上一次聚类中心
 8     :return: 损失值
 9     '''
10     present_center = np.array(present_center)
11     pre_center = np.array(pre_center)
12     return np.sum((present_center - pre_center)**2)
13 
14 def classifer(intput_signal, center):
15     '''
16     分类器(通过当前的聚类中心,给输入图像分类)
17     :param intput_signal: 输入图像
18     :param center: 聚类中心
19     :return: 标签矩阵
20     '''
21     input_row, input_col= intput_signal.shape # 输入图像的尺寸
22 
23     pixls_labels = np.zeros((input_row, input_col))  # 储存所有像素标签
24 
25     pixl_distance_t = []  # 单个元素与所有聚类中心的距离,临时用
26 
27     for i in range(input_row):
28         for j in range(input_col):
29             # 计算每个像素与所有聚类中心的差平方
30             for k in range(len(center)):
31                 distance_t = np.sum(abs((intput_signal[i, j]).astype(int) - center[k].astype(int))**2)
32                 pixl_distance_t.append(distance_t)
33             # 差异最小则为该类
34             pixls_labels[i, j] = int(pixl_distance_t.index(min(pixl_distance_t)))
35             # 清空该list,为下一个像素点做准备
36             pixl_distance_t = []
37     return pixls_labels
38 
39 def k_means(input_signal, center_num, threshold):
40     '''
41     基于k-means算法的图像分割(适用于灰度图)
42     :param input_signal: 输入图像
43     :param center_num: 聚类中心数目
44     :param threshold: 迭代阈值
45     :return:
46     '''
47     input_signal_cp = np.copy(input_signal) # 输入信号的副本
48     input_row, input_col = input_signal_cp.shape # 输入图像的尺寸
49     pixls_labels = np.zeros((input_row, input_col))  # 储存所有像素标签
50 
51     # 随机初始聚类中心行标与列标
52     initial_center_row_num = [i for i in range(input_row)]
53     random.shuffle(initial_center_row_num)
54     initial_center_row_num = initial_center_row_num[:center_num]
55 
56     initial_center_col_num = [i for i in range(input_col)]
57     random.shuffle(initial_center_col_num)
58     initial_center_col_num = initial_center_col_num[:center_num]
59 
60     # 当前的聚类中心
61     present_center = []
62     for i in range(center_num):
63         present_center.append(input_signal_cp[initial_center_row_num[i], initial_center_col_num[i]])
64     pixls_labels = classifer(input_signal_cp, present_center)
65 
66     num = 0 # 用于记录迭代次数
67     while True:
68         pre_centet = present_center.copy() # 储存前一次的聚类中心
69         # 计算当前聚类中心
70         for n in range(center_num):
71             temp = np.where(pixls_labels == n)
72             present_center[n] = sum(input_signal_cp[temp].astype(int)) / len(input_signal_cp[temp])
73         # 根据当前聚类中心分类
74         pixls_labels = classifer(input_signal_cp, present_center)
75         # 计算上一次聚类中心与当前聚类中心的差异
76         loss = loss_function(present_center, pre_centet)
77         num = num + 1
78         print("Step:"+ str(num) + "   Loss:" + str(loss))
79         # 当损失小于迭代阈值时,结束迭代
80         if loss <= threshold:
81             break
82     return pixls_labels

 



参考链接:https://www.jianshu.com/p/11d7cde4944d

参考链接:https://blog.csdn.net/liu1194397014/article/details/52844997

2 度量方式

posted on 2020-02-17 12:22  乞力马扎罗的雪顶  阅读(237)  评论(0)    收藏  举报