1. 聚类分析仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组。

其目标是组内的对象相互之间是相似的或者相关的,而不同组中的对象是不同的或者不相关的。

2.聚类分析的重要技术

   K均值:K均值是基于原型的、划分的聚类技术。它试图发现用户指定个数k的簇(由质心代表)

邻近度函数 质心 目标函数
曼哈顿距离L1 中位数 最小化对象到其簇质心的L1距离和
平方欧几里得距离L2平方 均值 最小化对象到其簇质心的L2距离的平方和
余弦 均值 最大化对象与其簇质心的余弦相似度和
Bregman散度 均值 最小化对象到其簇质心的Bregman散度和

  SSE(Sum of Squared Error)误差的平方和

  凝聚的层次聚类:

  层次聚类常常使用树状图dendrogram,对于二维点的聚合,层次聚类也可以使用嵌套簇图。

       单琏:MIN  全琏:MAX  组平均:GROUP AVERAGE

  Ward方法:两个簇的邻近度定义为两个簇合并时导致的平方误差的增量。

       簇邻近度的LANCE-WILLIAMS公式

  DBSCAN:是一种简单、有效的基于密度的聚类算法。

  核心点

  边界点

  噪声点

3.簇评估

非监督簇评估

  簇的凝聚性(紧凑性,紧致性)度量确定簇中对象如何密切相关

  簇的分离线度量确定某个簇中不同于其他簇的地方。 

非监督簇评估:使用临近度矩阵

posted on 2018-09-25 10:01  一天不进步,就是退步  阅读(302)  评论(0编辑  收藏  举报