聚类分析

一、定义

聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程

特性:

  • 聚类与分类的不同在于,聚类所要求划分的类是未知的。
  • 从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSSSAS等。
  • 从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。
  • 聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。
  •  
    从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的

二、聚类分析的主要步骤

1.数据预处理,
2.为衡量数据点间的相似度定义一个距离函数,
3.聚类或分组,
4.评估输出。

三、聚类分析的常用方法

1.系统聚类法:

1)在聚类分析开始,每个样本自成一类

2)按照某种方法度量所有样本之间的亲疏程度,把其中最紧密或最相似的样本首先聚成一个小类。

3)度量样本和小类之间的亲疏程度,并将当前最亲密的样本或小类再聚成一类;

4)度量剩余的样本和小类(小类和小类)间的的亲疏程度,并将当前最紧密的样本再聚成一类;如此反复,直到所有样本聚成一类为止。

如何计算样本间的亲疏程度呢:
1)样本和样本:有欧氏距离,平方欧式距离法,马氏距离,Block距离,计算Pearson简单相关系数,Cosine相似系数,卡方统计量等等等。

2)样本和小类(小类和小类):

最短距离法:以当前某个样本和已形成的小类中各个样本距离中的最小值作为当前样本与该小类之间的距离

最长距离,组间平均链锁法(各个类之间的平均距离),组内平均链锁法,重心法,离差平方和法

2.层次聚类法

具体参考以下博客:

 https://www.cnblogs.com/liuxuelin/p/15861646.html

R型聚类(Rtype cluster),聚类分析方法的一种。根据不同变量之间相关程度高低进行分类。研究中,若变量较多且相关较强时,可以使用R型聚类法把变量聚为几个大类,同一类变量之间有较强相关性,不同类变量之间相关程度低,并可以从同类变量中找出一典型性变量作为代表,最终减少变量个数达到降维目的。如对学生评价中,衡量学生特征的变量有很多,由于相互之间关系存在亲疏远近,最终可以整合为德智体等几个主要方面进行测定。

 https://www.cnblogs.com/liuxuelin/p/15861664.html

Q型聚类分析

Q型聚类(Qtype cluster),聚类分析方法的一种。把所有观察对象按一定性质进行分类,使性质相近对象分在同一类,性质差异较大对象分到另一类。主要根据不同对象(如样本)之间距离远近(计算方法如欧几里得距离等)进行区分,近者分为一类,远者分成不同类。如把不同个体的人分成不同群体或类别,主要采用此聚类方法。

posted @ 2022-01-02 23:10  foreast  阅读(723)  评论(0编辑  收藏  举报