hadoop与spark的处理技巧（六）聚类算法(3)模型评价

　　聚类模型也有很多评价方法用于分析模型性能，以及评估模型样本的拟合度。聚类的评估通常分为两部分：内部评估和外部评估。内部评估表示评估
过程使用训练模型时使用的训练数据，外部评估则使用训练数据之外的数据。

1. 内部评价指标

　　通用的内部评价指标包括WCSS、Davies-Bouldin指数、Dunn指数和轮廓系数（silhouette coefficient）。

　　当基于聚类本身的数据评估聚类结果时，这称为内部评估。这些方法通常将最佳分数分配给算法，该算法产生在群集内具有高相似性的群集和群集之间的低相似性。在群集评估中使用内部标准的一个缺点是内部度量的高分不一定导致有效的信息检索应用。此外，本评价朝向使用相同的群集模型的算法偏置。例如，k均值聚类自然地优化对象距离，并且基于距离的内部标准可能会高估所得到的聚类。

　　因此，内部评估测量最适合于了解一种算法比另一种算法表现更好的情况，但这并不意味着一种算法产生的结果比另一种算法更有效。通过这样的指数测量的有效性取决于数据集中存在这种结构的主张。如果数据集包含完全不同的模型集，或者评估测量的是完全不同的标准，那么为某种模型设计的算法就没有机会。例如，k-means聚类只能找到凸簇，而许多评估索引假设凸簇。在具有非凸集群的数据集上，既不使用k均值，也不使用假设凸性的评估标准。

　　存在十几种内部评估指标，通常基于直觉，即同一集群中的项目应该比不同集群中的项目更相似。

戴维斯 - 布尔丁指数

Davies-Bouldin 可通过以下公式来计算：

DB = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} \ max _ {j \ neq i} \ left（{\ frac {\ sigma _ {i} + \ sigma _ {Ĵ}} {d（C_ {I}，{C_}Ĵ）}} \右）

其中n是簇的数量，

C_ {X}

\ sigma _ {x}

d（C_ {I}，{C_}Ĵ）

由于生成具有低簇内距离（高簇内相似性）和高簇间距离（低簇间相似性）的簇的算法将具有低Davies-Bouldin索引，该聚类算法产生具有簇的集合。

$最小的 Davies-Bouldin指数被认为是基于该标准的最佳算法。$

邓恩指数

Dunn指数旨在识别密集且分离良好的星团。它被定义为最小簇间距离与最大簇内距离之间的比率。对于每个集群分区，Dunn指数可以通过以下公式计算：

D = {\ frac {\ min _ {1 \ leq i <j \ leq n} d（i，j）} {\ max _ {1 \ leq k \ leq n} d ^ {\ prime}（k）} } \ ,,

其中d（i，j）表示簇i和j之间的距离，并且d '（k）测量簇k的簇内距离。两个聚类之间的聚类间距离d（i，j）可以是任何数量的距离度量，例如聚类的

质心

之间的距离。类似地，可以以各种方式测量簇内距离d '（k），例如簇k中的任何元素对之间的最大距离。。由于内部标准寻求具有高簇内相似性和低簇间相似性的簇，因此更期望产生具有高Dunn指数的簇的算法。

剪影系数

轮廓系数将与同一群集中的元素的平均距离与其他群集中的元素的平均距离进行对比。具有高轮廓值的对象被认为是良好聚类的，具有低值的对象可以是异常值。该索引适用于k均值聚类，并且还用于确定最佳聚类数。

2. 外部评价指标

　　因为聚类被认为是无监督分类，如果有一些带标注的数据，便可以用这些标签来评估聚类模型。可以使用聚类模型预测类簇（类标签），使用分类模型中类似的方法评估预测值和真实标签的误差（即真假阳性率和真假阴性率）。

　　与内部评估一样，存在若干外部评估措施，具体方法包括Rand measure、F-measure、雅卡尔系数（Jaccard index）等。

纯度：纯度衡量集群包含单个类的程度。其计算可以考虑如下：对于每个集群，计算来自所述集群中最常见类的数据点的数量。现在取所有簇的总和除以数据点的总数。正式地，给定一些集群 $中号$

{\ displaystyle {\ frac {1} {N}} \ sum _ {m \ in M} \ max _ {d \ in D} {| m \ cap d |}}

请注意，此度量不会影响具有多个群集。因此，例如，通过将每个数据点放在其自己的集群中，可以获得1的纯度分数。纯度也不适用于不平衡数据：如果1000大小的数据集由两个类组成，则一个类包含999个点，另一个类只有1个点。无论聚类算法执行得多么糟糕，它总能提供非常高的纯度值。

posted @ 2020-05-19 16:21 疯狂摇头的青蛙阅读(565) 评论(0) 编辑收藏举报

刷新页面返回顶部