Python手动实现kmeans聚类和调用sklearn实现

1. 算法步骤

  1. 随机选取k个样本点充当k个簇的中心点;
  2. 计算所有样本点与各个簇中心之间的距离,然后把样本点划入最近的簇中;
  3. 根据簇中已有的样本点,重新计算簇中心;
  4. 重复步骤2和3,直到簇中心不再改变或改变很小。

2. 手动Python实现

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets.samples_generator import make_blobs
 
n_data = 400
n_cluster = 4
# generate training data
X, y = make_blobs(n_samples=n_data, centers=n_cluster, cluster_std=0.60, random_state=0)
 
# generate centers of clusters
centers = np.random.rand(4, 2)*5
 
EPOCH = 10
tol = 1e-5
for epoch in range(EPOCH):
    labels = np.zeros(n_data, dtype=np.int)
 
    # 计算每个点到簇中心的距离并分配label
    for i in range(n_data):
        distance = np.sum(np.square(X[i]-centers), axis=1)
        label = np.argmin(distance)
        labels[i] = label
 
    # 重新计算簇中心
    for i in range(n_cluster):
        indices = np.where(labels == i)[0]       # 找出第i簇的样本点的下标
        points = X[indices]
        centers[i, :] = np.mean(points, axis=0# 更新第i簇的簇中心
 
plt.scatter(X[:, 0], X[:, 1], c=labels, s=40, cmap='viridis')
plt.show()

运行结果:(注:当簇中心初始化不好时,可能计算会有点错误)

 

3. 调用sklearn实现kmeans

1
2
3
4
5
6
7
8
9
10
11
12
13
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets.samples_generator import make_blobs
 
# Generate some data
X, y = make_blobs(n_samples=400, centers=4, cluster_std=0.60, random_state=0)
 
# kmeans clustering
kmeans = KMeans(4, random_state=0)
kmeans.fit(X)   # 训练模型
labels = kmeans.predict(X)   # 预测分类
plt.scatter(X[:, 0], X[:, 1], c=labels, s=40, cmap='viridis')
plt.show()

运行结果:

 

posted @   Picassooo  阅读(2062)  评论(0编辑  收藏  举报
编辑推荐:
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
阅读排行:
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
点击右上角即可分享
微信分享提示