特别:事先不知道类别的个数与结构。据以进行分析的数据是对象之间的相似性(similarity)和相异性(disdimilarity)的数据。
聚类分析根据分类对象不同分对Q型( 对样本进行聚类) 和R型 (对变量进行聚类)。
 
一、对样本(Q型)聚类大致可分两类:
1、定量变量:有数值特征
2、定性变量:并没有数据上的变化,只有性质上的差异。
                        (I) 有序变量:没有数量关系,只有次序关系。如一等品,二等品;优,劣;
                        (ii) 名义变量:既无等级关系也无数量关系。如阴,晴;男,女;
                                    
3、距离:(a)定量距离:欧氏、闵氏、切氏、马氏等
                 (b)定性距离:
二、对变量(Q型)进行聚类:以相似系数来度量变量之间的相似程度。
 
R实现:
 
预处理数据:数据中心化标准化: sclae( x, center = TURE ,sclae = TRUE )
 
(a): 聚类
    x<-hclust( d, method=“ “, members= NULL)
    plot( x, hang= 数值, axes= , main= , xlab= , ylab= )
    x: hclust生成的对象
    hang: 谱系图中各类所在的位置,hang取负值时,类从底部画起
(b):确定类的个数 
     rect.hclust( x, k= null, h= null, border= 数或向量)
    x: hclust生成的对象
    k: 类的个数
    h: 谱系图中的阈值,要求分成的各类距离大于h
    border: 矩形框的颜色
 
 
 
 
 
posted on 2018-12-02 12:04  Fendi_ly  阅读(594)  评论(0编辑  收藏  举报