使用 k-means 聚类算法对多维属性数据进行分类
数据形式如下:
前期数据整合:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 | import pandas as pd import scipy import scipy.cluster.hierarchy as sch from scipy.cluster.vq import vq,kmeans,whiten import numpy as np import matplotlib.pylab as plt df1 = pd.read_csv(r "D:\01RiverPro\01DATA\01Headwater\CSV\dem.csv" ) df2 = pd.read_csv(r "D:\01RiverPro\01DATA\01Headwater\CSV\ndvi_mean.csv" ) df3 = pd.read_csv(r "D:\01RiverPro\01DATA\01Headwater\CSV\pop_mean.csv" ) result = pd.merge(df1, df2, how = 'inner' , on = [ 'GRIDCODE' ]) #取交集 result = pd.merge(result, df3, how = 'inner' , on = [ 'GRIDCODE' ]) df = result[[ 'GRIDCODE' , 'dem_mean' , 'ndvi_mean' , 'pop_mean' ]] #新增一列其他方法进行的分类标签 ishw = [ 1 , 1 , 1 , 1 , 1 , 1 , 1 , 1 , 1 , 1 , 1 , 1 , 1 , 1 , 1 , 1 , 1 , 1 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 ] df[ 'Headwater_label' ] = ishw #转为array dataset = df.values points = dataset [:, 1 : 4 ] #第2列到第4属性列 ishw_label = dataset[:, - 1 ] #print("points:\n",points) # k-means聚类 #将原始数据做归一化处理 data = whiten(points) #使用kmeans函数进行聚类,输入第一维为数据,第二维为聚类个数k. #有些时候我们可能不知道最终究竟聚成多少类,一个办法是用层次聚类的结果进行初始化.当然也可以直接输入某个数值. #k-means最后输出的结果其实是两维的,第一维是聚类中心,第二维是损失distortion,我们在这里只取第一维,所以最后有个[0] #centroid = kmeans(data,max(cluster))[0] centroid = kmeans(data, 2 )[ 0 ] #分为2类 print (centroid) #输出中心 #使用vq函数根据聚类中心对所有数据进行分类,vq的输出也是两维的,[0]表示的是所有数据的label label = vq(data,centroid)[ 0 ] label #输出两类的数量 num = [ 0 , 0 ] for i in label: if (i = = 0 ): num[ 0 ] = num[ 0 ] + 1 else : num[ 1 ] = num[ 1 ] + 1 print ( 'num =' ,num) #输出符合预期的比例等 print ( "Final clustering by k-means:\n" ,label) result = np.subtract(label,ishw_label) print ( "result:\n" ,result) count = [ 0 , 0 ] for i in result: if (i = = 0 ): count[ 0 ] = count[ 0 ] + 1 else : count[ 1 ] = count[ 1 ] + 1 print (count) print ( float (count[ 0 ]) / (count[ 0 ] + count[ 1 ])) |
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 记一次.NET内存居高不下排查解决与启示