K-means算法笔记python3.0

聚类的基本思想

俗话说“物以类聚，人以群分”

聚类--Clustering--是一种无监督学习，简单地说就是把相似的对象归到同一簇中。簇内的对象越相似，聚类的效果越好。

定义：给定一个有

Ｋ-Means算法

Ｋ-Means算法是最为经典的基于划分的聚簇方法，是十大经典数据挖掘算法之一。简单的说Ｋ-Means就是在没有任何监督信号的情况下将数据分为K份的一种方法。

聚类算法就是无监督学习中最常见的一种，给定一组数据，需要聚类算法去挖掘数据中的隐含信息。聚类算法的应用很广：顾客行为聚类，google新闻聚类等。

K值是聚类结果中类别的数量。简单的说就是我们希望将数据划分的类别数

算法实现

具体的算法步骤如下：

随机选择K个中心点
把每个数据点分配到离它最近的中心点；
重新计算每类中的点到该类中心点距离的平均值
分配每个数据到它最近的中心点；
重复步骤3和4，直到所有的观测值不再被分配或是达到最大的迭代次数（R把10次作为默认迭代次数）
以下代码数据集随机生成

 1 import numpy as np
 2 import matplotlib.pyplot as plt
 3 
 4 # 两点距离
 5 def distance(e1, e2):
 6     return np.sqrt((e1[0]-e2[0])**2+(e1[1]-e2[1])**2)
 7 
 8 # 集合中心
 9 def means(arr):
10     return np.array([np.mean([e[0] for e in arr]), np.mean([e[1] for e in arr])])
11 
12 # arr中距离a最远的元素，用于初始化聚类中心
13 def farthest(k_arr, arr):
14     f = [0, 0]
15     max_d = 0
16     for e in arr:
17         d = 0
18         for i in range(k_arr.__len__()):
19             d = d + np.sqrt(distance(k_arr[i], e))
20         if d > max_d:
21             max_d = d
22             f = e
23     return f
24 
25 # arr中距离a最近的元素，用于聚类
26 def closest(a, arr):
27     c = arr[1]
28     min_d = distance(a, arr[1])
29     arr = arr[1:]
30     for e in arr:
31         d = distance(a, e)
32         if d < min_d:
33             min_d = d
34             c = e
35     return c
36 
37 
38 if __name__=="__main__":
39     ## 生成二维随机坐标（如果有数据集就更好）
40     arr = np.random.randint(100, size=(100, 1, 2))[:, 0, :]
41 
42     ## 初始化聚类中心和聚类容器
43     m = 5
44     r = np.random.randint(arr.__len__() - 1)
45     k_arr = np.array([arr[r]])
46     cla_arr = [[]]
47     for i in range(m-1):
48         k = farthest(k_arr, arr)
49         k_arr = np.concatenate([k_arr, np.array([k])])
50         cla_arr.append([])
51 
52     ## 迭代聚类
53     n = 20
54     cla_temp = cla_arr
55     for i in range(n):    # 迭代n次
56         for e in arr:    # 把集合里每一个元素聚到最近的类
57             ki = 0        # 假定距离第一个中心最近
58             min_d = distance(e, k_arr[ki])
59             for j in range(1, k_arr.__len__()):
60                 if distance(e, k_arr[j]) < min_d:    # 找到更近的聚类中心
61                     min_d = distance(e, k_arr[j])
62                     ki = j
63             cla_temp[ki].append(e)
64         # 迭代更新聚类中心
65         for k in range(k_arr.__len__()):
66             if n - 1 == i:
67                 break
68             k_arr[k] = means(cla_temp[k])
69             cla_temp[k] = []
70 
71     ## 可视化展示
72     col = ['HotPink', 'Aqua', 'Chartreuse', 'yellow', 'LightSalmon']
73     for i in range(m):
74         plt.scatter(k_arr[i][0], k_arr[i][1], linewidth=10, color=col[i])
75         plt.scatter([e[0] for e in cla_temp[i]], [e[1] for e in cla_temp[i]], color=col[i])
76     plt.show()

训练结果：
K-Means的细节问题

参考：

https://www.cnblogs.com/nxld/p/6376496.html

https://blog.csdn.net/qq_37509235/article/details/82925781

posted @ 2020-03-23 22:51 daisy99lijing 阅读(278) 评论(1) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

daisy99lijing

K-means算法笔记python3.0

Ｋ-Means算法

算法实现

K-Means的细节问题

公告