4.K均值算法--应用

1. 应用K-means算法进行图片压缩

读取一张图片

观察图片文件大小,占内存大小,图片数据结构,线性化

用kmeans对图片像素颜色进行聚类

获取每个像素的颜色类别,每个类别的颜色

压缩图片生成:以聚类中收替代原像素颜色,还原为二维

观察压缩图片的文件大小,占内存大小

from sklearn.datasets import load_sample_image
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import matplotlib.image as img
import sys
import numpy as np

picture = img.imread("C://Users/lucas-lyw/Desktop/Lyw/sky.jpg")  # 读取自己准备的图片
print("图片的大小:", picture.size)
print("图片占用的内存:", sys.getsizeof(picture))
print("图片的数据结构:\n", picture)
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.imshow(picture)  # 显示图片
plt.show()

image = picture[::3,::3]  # 降低图片3倍的分辨率
x = image.reshape(-1,3)
print(image.shape,x.shape,picture.shape)

n_colors = 45
model = KMeans(n_colors)  # 对颜色进行聚类
labels = model.fit_predict(x)  # 获取每个像素的颜色类别
colors = model.cluster_centers_  # 每个类别的颜色
new_image = colors[labels].reshape(image.shape)
# 压缩图片
plt.imshow(new_image.astype(np.uint8))
plt.show()
# 二次压缩图片
plt.imshow(new_image.astype(np.uint8)[::3, ::3])
plt.show()

 

运行结果:

 

 

原图:

 

第一次压缩:

第二次压缩:

2. 观察学习与生活中可以用K均值解决的问题

from sklearn.cluster import KMeans
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split

data = pd.read_csv('./data/house.csv',index_col=0)

#x = data.iloc[:,[2,7]].astype('int')
#x = np.array(x)
x = data.iloc[: ,[2]] #获取“总价”
y = data.iloc[:,[7]]  #面积
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.2,random_state=5) #划分成功

km_model = KMeans(n_clusters=3)
km_model.fit(x)
y_kmeans= km_model.predict(x)

# price_high=np.array(data[y_kmeans==2]['总价'])
# price_mid=np.array(data[y_kmeans==1]['总价'])
# price_low=np.array(data[y_kmeans==0]['总价'])

plt.rcParams['font.sans-serif'] = 'SimHei'  # 设置中文显示
plt.xlabel('总价')
plt.ylabel('面积')
plt.title("总价与面积的关系如下:")
plt.scatter(x_test,y_test,s=60,c='blue')

 

运行结果:

 

posted @ 2020-04-19 18:14  妮妮妮kk  阅读(157)  评论(0编辑  收藏  举报