4.K均值算法--应用

1. 应用K-means算法进行图片压缩

读取一张图片

观察图片文件大小,占内存大小,图片数据结构,线性化

用kmeans对图片像素颜色进行聚类

获取每个像素的颜色类别,每个类别的颜色

压缩图片生成:以聚类中收替代原像素颜色,还原为二维

观察压缩图片的文件大小,占内存大小

 代码:

import numpy as np
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import sys
image=plt.imread("role.jpg")
print("原图大小:",image.size)
print("原图内存:",sys.getsizeof(image))
plt.imshow(image)
plt.show()
# 压缩
image=image[::3,::3]
x=image.reshape(-1,3)
# 构建模型
model=KMeans(n_clusters=64)
# 预测
labels=model.fit_predict(x)
# 聚类中心
colors = model.cluster_centers_
new_image = colors[labels].reshape(image.shape)
plt.imshow(new_image.astype(np.uint8))
new_image = new_image/255
print("压缩图大小:",new_image.size)
print("压缩图内存:",sys.getsizeof(new_image))
plt.imshow(new_image)
plt.show()

原图:

 

 

压缩后:

 

 

 

 

2. 观察学习与生活中可以用K均值解决的问题。

从数据-模型训练-测试-预测完整地完成一个应用案例。

这个案例会作为课程成果之一,单独进行评分。

    用商店获得的一个消费记录单,用消费单的各个客户的消费周期和平均每次消费的金额来分析出客户的三个档次。

代码:

import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans

#【消费周期,平均每次消费金额】
x = np.array([[10,317],
[13,147],
[17,172],
[67,194],
[35,189],
[1,190],
[10,281],
[12,142],
[8,186],
[1,226],
[32,287],
[3,499],
[90,181],
[1,172],
[16,190],
[31,271],
[25,382],]
)
# 导入聚类分析工具KMeans
# 传入要分类的数目
kms = KMeans(n_clusters=3)
kms.fit(x)
y = kms.predict(x)
print("预测:",y)
x1 = []
x2 = []
x3 = []
y1 = []
y2 = []
y3 = []
i = 0
while i < len(x):
if y[i] == 0:
x1.append(x[i][0])
y1.append(x[i][1])
elif y[i] == 1:
x2.append(x[i][0])
y2.append(x[i][1])
elif y[i] == 2:
x3.append(x[i][0])
y3.append(x[i][1])
i = i + 1
plt.plot(x1, y1, '.',label = '普通客户')
plt.plot(x2, y2, '^',label = '主流客户')
plt.plot(x3, y3, 's',label = '重点招待客户')
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.xlabel("消费周期")
plt.ylabel("平均每次消费金额")
plt.legend()
plt.show()

posted on 2020-04-17 17:41  chenjd  阅读(238)  评论(0编辑  收藏  举报

导航