聚类评价指标学习

1.有label评价标准

https://zhuanlan.zhihu.com/p/53840697

 一般分为:外部、内部、相对,这三种评价指标。

1.1 Purity:

正确聚类的样本数占总样本的比例:

 

非常直观且简单的计算法方法。

1.2 NMI (Normalized Mutual Information)

即归一化互信息,计算公式如下:

互信息指的是两个随机变量之间的关联程度,标准互信息是将互信息归一化0~1。值越高越好。

1.3 兰德指数 (Rand index, RI):

 

RI是兰德指数,ARI范围是[−1,1],值越大意味着聚类结果与真实情况越吻合。从广义的角度来讲,ARI衡量的是两个数据分布的吻合程度。值越高越好。

④调整兰德指数(Adjusted Rand index, ARI):看不明白计算过程,值越高越好;

2.无label评价

https://blog.csdn.net/u012102306/article/details/52423074

https://blog.csdn.net/sinat_33363493/article/details/52496011

2.1 Compactness(紧密性)(CP):

CP计算 每一个类  各点到聚类中心的平均距离;  CP越低意味着类内聚类距离越近;但没有考虑类间效果。

 

2.2 Separation(间隔性)(SP):

SP计算 各聚类中心两两之间平均距离; SP越高意味类间聚类距离越远;但没有考虑类内效果。

 

2.3 Davies-Bouldin Index(戴维森堡丁指数)(分类适确性指标)(DB)(DBI):

      DB计算 任意两类别的类内距离平均距离(CP)之和除以两聚类中心距离 求最大值

      DB越小意味着类内距离越小 同时类间距离越大 

      缺点:因使用欧式距离 所以对于环状分布  聚类评测很差

2.4 Dunn Validity Index (邓恩指数)(DVI):

   DVI计算 任意两个簇元素的最短距离(类间)除以任意簇中的最大距离(类内)

      DVI越大意味着类间距离越大 同时类内距离越小

      缺点:对离散点的聚类测评很高、对环状分布测评效果差 

 

posted @ 2020-06-03 10:59  lypbendlf  阅读(1641)  评论(0编辑  收藏  举报