sklearn KMeans在训练集上训练,在预测集上预测
一般在有监督训练中,我们很自然地会用如下模式去预测测试集的分类:(以svm为例)
svm.fit(x_train, y_train)
y_pred=svm.predict(x_test)
那么无监督训练中是否也可以在一个数据集上训练,然后用训练好的模型直接调用predict()函数在另一个数据集上进行预测呢?答案是:可以的!下面我们以KMeans为例说明。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 | import numpy as np from sklearn.cluster import KMeans from sklearn.datasets.samples_generator import make_blobs # Generate some data X_train, y_train = make_blobs(n_samples = 400 , centers = 4 , cluster_std = 0.60 , random_state = 0 ) X_test, y_test = make_blobs(n_samples = 100 , centers = 4 , cluster_std = 0.80 , random_state = 0 ) kmeans = KMeans( 4 , random_state = 0 ) kmeans.fit(X_train) # 方法一:手动计算测试集的分类 centroids = kmeans.cluster_centers_ labels_list = [] for i in range (X_test.shape[ 0 ]): distance = np.square(centroids - X_test[i]) distance = np. sum (distance, axis = 1 ) label = np.argmin(distance) labels_list.append(label) # 方法二:调用predict() labels_test = kmeans.predict(X_test) # 判断两个方法的预测结果是否一样 print (labels_list = = list (labels_test)) # 输出结果:True |
kmeans的predict()结果和我们手动计算的结果完全相同,说明无监督训练中也可以在一个数据集上训练,然后用训练好的模型直接调用predict()函数在另一个数据集上进行预测。
分类:
scikit-learn
标签:
kmeans
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通