序言
K-means算法是非监督学习(unsupervised learning)中最简单也是最常用的一种聚类算法,具有的特点是:
对初始化敏感。初始点选择的不同,可能会产生不同的聚类结果
最终会收敛。不管初始点如何选择,最终都会收敛。
K-means算法
实际上,无论是从算法思想,还是具体实现上,K-means算法是一种很简单的算法。它属于无监督分类,通过按照一定的方式度量样本之间的相似度,通过迭代更新聚类中心,当聚类中心不再移动或移动差值小于阈值时,则就样本分为不同的类别。
1 算法思路
- 随机选取聚类中心
- 根据当前聚类中心,利用选定的度量方式,分类所有样本点
- 计算当前每一类的样本点的均值,作为下一次迭代的聚类中心
- 计算下一次迭代的聚类中心与当前聚类中心的差距
- 如4中的差距小于给定迭代阈值时,迭代结束。反之,至2继续下一次迭代
2 度量方式
根据聚类中心,将所有样本点分为最相似的类别。这需要一个有效的盘踞,平方差是最常用的度量方式,如下
为样本点,
,共
个样本点
为
最相似的类别,即
被分类至该类
为聚类中心,
,共
个类别
3 代码实现(图像)
1 import numpy as np 2 import random 3 def loss_function(present_center, pre_center): 4 ''' 5 损失函数,计算上一次与当前聚类中的差异(像素差的平方和) 6 :param present_center: 当前聚类中心 7 :param pre_center: 上一次聚类中心 8 :return: 损失值 9 ''' 10 present_center = np.array(present_center) 11 pre_center = np.array(pre_center) 12 return np.sum((present_center - pre_center)**2) 13 14 def classifer(intput_signal, center): 15 ''' 16 分类器(通过当前的聚类中心,给输入图像分类) 17 :param intput_signal: 输入图像 18 :param center: 聚类中心 19 :return: 标签矩阵 20 ''' 21 input_row, input_col= intput_signal.shape # 输入图像的尺寸 22 23 pixls_labels = np.zeros((input_row, input_col)) # 储存所有像素标签 24 25 pixl_distance_t = [] # 单个元素与所有聚类中心的距离,临时用 26 27 for i in range(input_row): 28 for j in range(input_col): 29 # 计算每个像素与所有聚类中心的差平方 30 for k in range(len(center)): 31 distance_t = np.sum(abs((intput_signal[i, j]).astype(int) - center[k].astype(int))**2) 32 pixl_distance_t.append(distance_t) 33 # 差异最小则为该类 34 pixls_labels[i, j] = int(pixl_distance_t.index(min(pixl_distance_t))) 35 # 清空该list,为下一个像素点做准备 36 pixl_distance_t = [] 37 return pixls_labels 38 39 def k_means(input_signal, center_num, threshold): 40 ''' 41 基于k-means算法的图像分割(适用于灰度图) 42 :param input_signal: 输入图像 43 :param center_num: 聚类中心数目 44 :param threshold: 迭代阈值 45 :return: 46 ''' 47 input_signal_cp = np.copy(input_signal) # 输入信号的副本 48 input_row, input_col = input_signal_cp.shape # 输入图像的尺寸 49 pixls_labels = np.zeros((input_row, input_col)) # 储存所有像素标签 50 51 # 随机初始聚类中心行标与列标 52 initial_center_row_num = [i for i in range(input_row)] 53 random.shuffle(initial_center_row_num) 54 initial_center_row_num = initial_center_row_num[:center_num] 55 56 initial_center_col_num = [i for i in range(input_col)] 57 random.shuffle(initial_center_col_num) 58 initial_center_col_num = initial_center_col_num[:center_num] 59 60 # 当前的聚类中心 61 present_center = [] 62 for i in range(center_num): 63 present_center.append(input_signal_cp[initial_center_row_num[i], initial_center_col_num[i]]) 64 pixls_labels = classifer(input_signal_cp, present_center) 65 66 num = 0 # 用于记录迭代次数 67 while True: 68 pre_centet = present_center.copy() # 储存前一次的聚类中心 69 # 计算当前聚类中心 70 for n in range(center_num): 71 temp = np.where(pixls_labels == n) 72 present_center[n] = sum(input_signal_cp[temp].astype(int)) / len(input_signal_cp[temp]) 73 # 根据当前聚类中心分类 74 pixls_labels = classifer(input_signal_cp, present_center) 75 # 计算上一次聚类中心与当前聚类中心的差异 76 loss = loss_function(present_center, pre_centet) 77 num = num + 1 78 print("Step:"+ str(num) + " Loss:" + str(loss)) 79 # 当损失小于迭代阈值时,结束迭代 80 if loss <= threshold: 81 break 82 return pixls_labels
参考链接:https://www.jianshu.com/p/11d7cde4944d
参考链接:https://blog.csdn.net/liu1194397014/article/details/52844997