机器学习三 —— K均值算法
1). 扑克牌手动演练k均值聚类过程:>30张牌,3类
这里选了40张牌,随机抽取三张牌并以其各自点数作为类中心,第一次是 2 6 9
每次的分类依据就是点数离那个中心近,近就分类到该分类下。第一次分完类,在计算各分类的中心值(该类所有数字求均值),重新得出三个类中心,第二次分类如下
再重复上面的计算步骤,直到类中心不再变动。具体结果如下表所示:
2). *自主编写K-means算法 ,以鸢尾花花瓣长度数据做聚类,并用散点图显示。(加分题)
import numpy as np
from sklearn.datasets import load_iris
import matplotlib.pyplot as plt
iris = load_iris()
pl = iris.data[:,2]
n = len(pl) #样本个数
k = 3 #中心个数
dist = np.zeros([n,k+1]) #初始化一个矩阵
center = np.zeros([k])
center = pl[:k]
centerNew = np.zeros([k])
while(True):
for i in range(n):
for j in range(k):
dist[i,j] = np.sqrt((pl[i]-center[j])**2) #计算距离
dist[i,k] = np.argmin(dist[i,:k])
#计算新的中心
for i in range(k):
index = dist[:, k] == i
if sum(pl[index]) == 0:
centerNew[i] = center[i]
else:
centerNew[i] = np.mean(pl[index])
#如果前后两次中心相等则跳出,否则继续
if np.all((center == centerNew)):
break
else:
for i in range(k):
center[i] = centerNew[i]
plt.rcParams['font.sans-serif']=['SimHei']
plt.scatter(pl,pl,c=dist[:,k],s=60, cmap='rainbow')
plt.xlabel("鸢尾花花瓣长度")
plt.ylabel("鸢尾花花瓣长度")
plt.show()
结果出来后不是很理想,后续再去寻找问题改进,结果如下:
3). 用sklearn.cluster.KMeans,鸢尾花花瓣长度数据做聚类,并用散点图显示.
1 2 3 4 5 6 7 8 9 10 11 12 13 | import matplotlib.pyplot as plt from sklearn.cluster import KMeans from sklearn.datasets import load_iris iris = load_iris() pl = iris.data[:, 2 ] x = pl.reshape( - 1 , 1 ) est = KMeans(n_clusters = 3 ) est.fit(x) y_kmeans = est.predict(x) plt.scatter(x[:, 0 ],x[:, 0 ],c = y_kmeans,s = 50 , cmap = 'rainbow' ); plt.show() |
4). 鸢尾花完整数据做聚类并用散点图显示.
1 2 3 4 5 6 | irisData = iris.data KMeans_model = KMeans(n_clusters = 3 ) KMeans_model.fit(irisData) pre = KMeans_model.predict(irisData) plt.scatter(irisData[:, 2 ],irisData[:, 3 ],c = pre, s = 50 , cmap = 'rainbow' ) plt.show() |
5).想想k均值算法中以用来做什么?
k均值算法是一种无监督的分类算法,主要通过大量的特征数据,来做类别的区分,如上面的题,KMeans算法可以用来区分鸢尾花的种类,在现实生活中,也可以对人的体重身高等数据来划分不同身体状况的人群,高矮胖瘦等,也可以通过文学作品的篇幅来分类短篇、长篇作品。
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步