4.K均值算法--应用
1、 应用K-means算法进行图片压缩
读取一张图片
观察图片文件大小,占内存大小,图片数据结构,线性化
用kmeans对图片像素颜色进行聚类
获取每个像素的颜色类别,每个类别的颜色
压缩图片生成:以聚类中收替代原像素颜色,还原为二维
观察压缩图片的文件大小,占内存大小
代码:
from sklearn.datasets import load_sample_image from sklearn.cluster import KMeans import matplotlib.pyplot as plt import sys import matplotlib.image as img import numpy as np # 读取一张图片 image = img.imread("./wh1.jpg") print('原图片文件大小:', image.size) print('原图片占内存大小:', sys.getsizeof(image)) print('原图片的数据结构:\n', image) plt.rcParams['font.sans-serif'] = ['SimHei'] plt.title("原图片") plt.imshow(image) plt.show()
结果:
# 用kmeans对图片像素颜色进行聚类 image = image[::3, ::3] X = image.reshape(-1, 3) print(image.shape, X.shape) n_colors = 64 model = KMeans(n_colors) labels = model.fit_predict(X) colors = model.cluster_centers_ new_image = colors[labels].reshape(image.shape) print('压缩图片文件大小:', new_image.size) print('压缩图片占内存大小:', sys.getsizeof(new_image)) print('压缩图片的数据结构:\n', new_image) img.imsave('D://机器学习/2.jpg', new_image)
结果:
压缩前后大小对比:
plt.title("压缩图片") plt.imshow(new_image.astype(np.uint8)) plt.show() plt.title("二次压缩图片") plt.imshow(new_image.astype(np.uint8)[::3, ::3]) plt.show()
结果:
2. 观察学习与生活中可以用K均值解决的问题。
用K均值解决,二手奔驰车某车型价格与上牌年份和表显里程的关系,从而更加直观的去选择购买车辆。
import numpy as np import matplotlib.pyplot as plt from sklearn.cluster import KMeans import pandas as pd che = pd.read_csv('201706120008王华 已处理.csv', index_col=0) data1 = che[che['车辆型号'] == '奔驰S级'] test_data = data1[['上牌年份', '表显里程', '价格']] data = np.array(test_data) model = KMeans(n_clusters=3) model.fit(data) y = model.predict(data) model.cluster_centers_ a = [] b = [] c = [] d = [] for i in range(len(data)): if y[i] == 0: a.append(data[i, :]) a1 = np.array(a) elif y[i] == 1: b.append(data[i, :]) b1 = np.array(b) else: c.append(data[i, :]) c1 = np.array(c) plt.rcParams['font.sans-serif'] = ['SimHei'] plt.scatter(a1[:, 1], a1[:, 0], s=55, c='#ed1941', marker="*") plt.scatter(b1[:, 1], b1[:, 0], s=50, c='#84bf96', marker="o") plt.scatter(c1[:, 1], c1[:, 0], s=50, c='#e0861a', marker="v") plt.legend(['中价车', '高价车', '低价车']) plt.ylabel("上牌年份") plt.xlabel("表显里程") plt.title("二手奔驰S级价格与上牌年份和表显里程的关系") plt.show()
结果:
获取到奔驰S级的数据:
可视化关系图: