聚类评价指标学习

1.有label评价标准

一般分为：外部、内部、相对，这三种评价指标。

正确聚类的样本数占总样本的比例：

非常直观且简单的计算法方法。

即归一化互信息，计算公式如下：

互信息指的是两个随机变量之间的关联程度，标准互信息是将互信息归一化0~1。值越高越好。

RI是兰德指数，ARI范围是[−1,1]，值越大意味着聚类结果与真实情况越吻合。从广义的角度来讲，ARI衡量的是两个数据分布的吻合程度。值越高越好。

④调整兰德指数(Adjusted Rand index, ARI)：看不明白计算过程，值越高越好；

https://blog.csdn.net/sinat_33363493/article/details/52496011

CP计算每一个类各点到聚类中心的平均距离； CP越低意味着类内聚类距离越近；但没有考虑类间效果。

SP计算各聚类中心两两之间平均距离； SP越高意味类间聚类距离越远；但没有考虑类内效果。

DB计算任意两类别的类内距离平均距离(CP)之和除以两聚类中心距离求最大值

DB越小意味着类内距离越小同时类间距离越大

缺点：因使用欧式距离所以对于环状分布聚类评测很差

　　DVI计算任意两个簇元素的最短距离(类间)除以任意簇中的最大距离(类内)

DVI越大意味着类间距离越大同时类内距离越小

缺点：对离散点的聚类测评很高、对环状分布测评效果差

posted @ 2020-06-03 10:59 lypbendlf 阅读(2049) 评论(0) 收藏举报

刷新页面返回顶部