使用 k-means 聚类算法对多维属性数据进行分类

数据形式如下:

 

 前期数据整合:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
import pandas as pd
import scipy
import scipy.cluster.hierarchy as sch
from scipy.cluster.vq import vq,kmeans,whiten
import numpy as np
import matplotlib.pylab as plt
 
df1 = pd.read_csv(r"D:\01RiverPro\01DATA\01Headwater\CSV\dem.csv")
df2 = pd.read_csv(r"D:\01RiverPro\01DATA\01Headwater\CSV\ndvi_mean.csv")
df3 = pd.read_csv(r"D:\01RiverPro\01DATA\01Headwater\CSV\pop_mean.csv")
result = pd.merge(df1, df2, how='inner', on=['GRIDCODE'])#取交集
result = pd.merge(result, df3, how='inner', on=['GRIDCODE'])
df=result[['GRIDCODE','dem_mean','ndvi_mean','pop_mean']]
#新增一列其他方法进行的分类标签
ishw = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
df['Headwater_label'] = ishw
#转为array
dataset = df.values
points = dataset [:,1:4]#第2列到第4属性列
ishw_label = dataset[:,-1]
#print("points:\n",points)
 
# k-means聚类
#将原始数据做归一化处理
data=whiten(points)
#使用kmeans函数进行聚类,输入第一维为数据,第二维为聚类个数k.
#有些时候我们可能不知道最终究竟聚成多少类,一个办法是用层次聚类的结果进行初始化.当然也可以直接输入某个数值.
#k-means最后输出的结果其实是两维的,第一维是聚类中心,第二维是损失distortion,我们在这里只取第一维,所以最后有个[0]
#centroid = kmeans(data,max(cluster))[0] 
centroid = kmeans(data,2)[0]#分为2类
print(centroid)#输出中心
#使用vq函数根据聚类中心对所有数据进行分类,vq的输出也是两维的,[0]表示的是所有数据的label
label=vq(data,centroid)[0]
label
 
 
#输出两类的数量
num = [0,0]
for i in label:
    if(i == 0):
        num[0] = num[0] + 1
    else:
        num[1] = num[1] + 1
print('num =',num)
 
 
#输出符合预期的比例等
print("Final clustering by k-means:\n",label)
result = np.subtract(label,ishw_label)
print("result:\n",result)
 
count = [0,0]
for i in result:
    if(i == 0):
        count[0] = count[0] + 1
    else:
        count[1] = count[1] + 1
print(count)
print(float(count[0])/(count[0]+count[1]))

  

 

 

 

 

 

 

 

 

参考:
https://blog.csdn.net/wukai0909/article/details/72639174

posted @   icydengyw  阅读(13199)  评论(0编辑  收藏  举报
编辑推荐:
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
阅读排行:
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 记一次.NET内存居高不下排查解决与启示
点击右上角即可分享
微信分享提示