4.K均值算法--应用

1. 应用K-means算法进行图片压缩

读取一张图片

观察图片文件大小，占内存大小，图片数据结构，线性化

用kmeans对图片像素颜色进行聚类

获取每个像素的颜色类别，每个类别的颜色

压缩图片生成：以聚类中收替代原像素颜色，还原为二维

观察压缩图片的文件大小，占内存大小

from sklearn.cluster import KMeans
import matplotlib.pyplot as Pillow
import sys
import numpy as np

image=Pillow.imread("./gta.jpg")     #读取一张图片
print("压缩前图片大小:",image.size)
print("压缩前图片占用的内存：",sys.getsizeof(image))
img=image[::3,::3]  #降低分辨率,隔3个值取一个值
x=img.reshape(-1,3) #将像素颜色整合成一个数组
model=KMeans(n_clusters=64) #取64种颜色
labels=model.fit_predict(x)
colors = model.cluster_centers_  #聚类中心
new_Image = colors[labels].reshape(img.shape) #聚类中收替代原像素颜色，还原为二维

print("压缩后的图片的大小：", new_Image.size)
print("压缩后的图片占用的内存：", sys.getsizeof(new_Image))
Pillow.imshow(new_Image.astype(np.uint8))
Pillow.imsave('./new_gta.jpg',new_Image.astype(np.uint8))

压缩前的图片：

压缩后的图片：

2. 观察学习与生活中可以用K均值解决的问题。

从数据-模型训练-测试-预测完整地完成一个应用案例。

这个案例会作为课程成果之一，单独进行评分。

通过广州二手房信息（总价，单价，面积）进行聚类

import pandas as pd
import numpy as np
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
from pylab import mpl

data=pd.read_excel("./二手房信息.xlsx") #加载文件
data2 = np.array(data.iloc[:,1:4].fillna(value=0).astype(int))  #提取数据

model = KMeans(n_clusters=3)    #构造模型，聚类中心为3
model.fit(data2)                #训练
model.cluster_centers_          #查看聚类中心
y_k = model.predict(data2)      #预测值

#查看预测后数据
f0 = np.array(data[y_k==0]['小区名称'])
f1 = np.array(data[y_k==1]['小区名称'])
f2 = np.array(data[y_k==2]['小区名称'])

#可视化
mpl.rcParams['font.sans-serif'] = ['SimHei']
plt.scatter(data.iloc[:,1],y_k,c=y_k,s=50,cmap='rainbow')
plt.xlabel("总价/万元")
plt.ylabel("预测值")
plt.show()

posted @ 2020-04-18 11:33 卡哇伊黑猫阅读(204) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

卡哇伊黑猫

4.K均值算法--应用

公告