聚类分析
聚类分为两种:对样品分类,Q型;对变量(指标)分类,R类。
Q型
样品空间的相似度——距离
常见的距离描述方法:
-
欧几里得距离:
MATLAB自带函数计算
d = pdist(x)%每个行向量代表一个坐标
-
绝对距离:
d = pdist(x,'cityblock')%也叫曼哈顿距离
-
闵可夫斯基距离:
d = pdist(x,'minkowski',r)%r表示指数
-
切比雪夫距离:
d = max(abs(xi-xj))
-
马氏距离
其中 指x和y的协方差矩阵的逆矩阵d = pdist(x,mahal)
S2=tril(suqareform(d)) %将数据转化为三角阵形式,更直观。
样品相似性度数
- 最短距离法: 以两类中距离最近的两点确定
- 最长距离法:以两类中距离最远的两点确定
- 重心法:以两类的重心确定
- 类平均法:以两类的样本点距离的平均确定
- 离差平方和法
R型
变量相似性度数
-
夹角余弦计算
空间中两个列向量计算夹角余弦值
2.相关系数
变量聚类法
- 最长距离法 :
, 取最大 - 最短距离法 : 同理,取最小
.
Q,R型的区别
Q型是样品聚类,得到的参数是各个样品(向量)间的
R是变量聚类,得到的参数是各个元素(指标)间的
详见《数学建模算法与应用》第二版
P226
例题10.1.3
matlab函数
Y = linkage(X,'method')%以不同的方法生成聚类树,默认最短距离
T = cluster(Y,'maxclust',r)%创建聚类, 将对象分为r类
本文作者:West11
本文链接:https://www.cnblogs.com/cxy1114blog/p/18459138
版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步