sklearn KMeans在训练集上训练,在预测集上预测

一般在有监督训练中,我们很自然地会用如下模式去预测测试集的分类:(以svm为例)

svm.fit(x_train, y_train)
y_pred=svm.predict(x_test)

那么无监督训练中是否也可以在一个数据集上训练,然后用训练好的模型直接调用predict()函数在另一个数据集上进行预测呢?答案是:可以的!下面我们以KMeans为例说明。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
import numpy as np
from sklearn.cluster import KMeans
from sklearn.datasets.samples_generator import make_blobs
 
# Generate some data
X_train, y_train = make_blobs(n_samples=400, centers=4, cluster_std=0.60, random_state=0)
X_test, y_test = make_blobs(n_samples=100, centers=4, cluster_std=0.80, random_state=0)
 
kmeans = KMeans(4, random_state=0)
kmeans.fit(X_train)
 
# 方法一:手动计算测试集的分类
centroids = kmeans.cluster_centers_
labels_list = []
for i in range(X_test.shape[0]):
    distance = np.square(centroids - X_test[i])
    distance = np.sum(distance, axis=1)
    label = np.argmin(distance)
    labels_list.append(label)
 
# 方法二:调用predict()
labels_test = kmeans.predict(X_test)
 
# 判断两个方法的预测结果是否一样
print(labels_list == list(labels_test))   # 输出结果:True

kmeans的predict()结果和我们手动计算的结果完全相同,说明无监督训练中也可以在一个数据集上训练,然后用训练好的模型直接调用predict()函数在另一个数据集上进行预测。

 

posted @   Picassooo  阅读(3853)  评论(0编辑  收藏  举报
编辑推荐:
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
阅读排行:
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
点击右上角即可分享
微信分享提示