4.K均值算法--应用

1. 应用K-means算法进行图片压缩

读取一张图片

观察图片文件大小,占内存大小,图片数据结构,线性化

用kmeans对图片像素颜色进行聚类

获取每个像素的颜色类别,每个类别的颜色

压缩图片生成:以聚类中收替代原像素颜色,还原为二维

观察压缩图片的文件大小,占内存大小

from sklearn.cluster import KMeans
import matplotlib.pyplot as Pillow
import sys
import numpy as np

image=Pillow.imread("./gta.jpg") #读取一张图片
print("压缩前图片大小:",image.size)
print("压缩前图片占用的内存:",sys.getsizeof(image))
img=image[::3,::3] #降低分辨率,隔3个值取一个值
x=img.reshape(-1,3) #将像素颜色整合成一个数组
model=KMeans(n_clusters=64) #取64种颜色
labels=model.fit_predict(x)
colors = model.cluster_centers_ #聚类中心
new_Image = colors[labels].reshape(img.shape) #聚类中收替代原像素颜色,还原为二维

print("压缩后的图片的大小:", new_Image.size)
print("压缩后的图片占用的内存:", sys.getsizeof(new_Image))
Pillow.imshow(new_Image.astype(np.uint8))
Pillow.imsave('./new_gta.jpg',new_Image.astype(np.uint8))

 

 

 

 压缩前的图片:

 

 

 

 压缩后的图片:

 

 

 

 

2. 观察学习与生活中可以用K均值解决的问题。

从数据-模型训练-测试-预测完整地完成一个应用案例。

这个案例会作为课程成果之一,单独进行评分。

 

通过广州二手房信息(总价,单价,面积)进行聚类

import pandas as pd
import numpy as np
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
from pylab import mpl

data=pd.read_excel("./二手房信息.xlsx") #加载文件
data2 = np.array(data.iloc[:,1:4].fillna(value=0).astype(int)) #提取数据

model = KMeans(n_clusters=3) #构造模型,聚类中心为3
model.fit(data2) #训练
model.cluster_centers_ #查看聚类中心
y_k = model.predict(data2) #预测值

#查看预测后数据
f0 = np.array(data[y_k==0]['小区名称'])
f1 = np.array(data[y_k==1]['小区名称'])
f2 = np.array(data[y_k==2]['小区名称'])

#可视化
mpl.rcParams['font.sans-serif'] = ['SimHei']
plt.scatter(data.iloc[:,1],y_k,c=y_k,s=50,cmap='rainbow')
plt.xlabel("总价/万元")
plt.ylabel("预测值")
plt.show()

 

 

 

 

 

 

posted @ 2020-04-18 11:33  卡哇伊黑猫  阅读(204)  评论(0编辑  收藏  举报