聚类分析

特别：事先不知道类别的个数与结构。据以进行分析的数据是对象之间的相似性(similarity)和相异性(disdimilarity)的数据。

聚类分析根据分类对象不同分对Q型( 对样本进行聚类）和R型（对变量进行聚类）。

一、对样本（Q型）聚类大致可分两类：

1、定量变量：有数值特征

2、定性变量：并没有数据上的变化，只有性质上的差异。

(I) 有序变量：没有数量关系，只有次序关系。如一等品，二等品；优，劣；

(ii) 名义变量：既无等级关系也无数量关系。如阴，晴；男，女；

3、距离：（a）定量距离：欧氏、闵氏、切氏、马氏等

（b）定性距离：

二、对变量（Q型）进行聚类：以相似系数来度量变量之间的相似程度。

R实现：

预处理数据：数据中心化标准化： sclae( x, center = TURE ,sclae = TRUE )

(a): 聚类

x<-hclust( d, method=“ “, members= NULL)

plot( x, hang= 数值， axes= , main= , xlab= , ylab= )

x: hclust生成的对象

hang: 谱系图中各类所在的位置，hang取负值时，类从底部画起

(b):确定类的个数

rect.hclust( x, k= null, h= null, border= 数或向量)

x: hclust生成的对象

k: 类的个数

h: 谱系图中的阈值，要求分成的各类距离大于h

border: 矩形框的颜色

posted on 2018-12-02 12:04 Fendi_ly 阅读(594) 评论(0) 编辑收藏举报