https://avoid.overfit.cn/post/161e4abfe1fa4e1a98ddf8511c16f2c6
评估聚类结果的有效性,即聚类评估或验证,对于聚类应用程序的成功至关重要。它可以确保聚类算法在数据中识别出有意义的聚类,还可以用来确定哪种聚类算法最适合特定的数据集和任务,并调优这些算法的超参数(例如k-means中的聚类数量,或DBSCAN中的密度参数)。
虽然监督学习技术有明确的性能指标,如准确性、精度和召回率,但评估聚类算法更具挑战性:
由于聚类是一种无监督学习方法,因此没有可以比较聚类结果的基础真值标签。
确定“正确”簇数量或“最佳”簇通常是一个主观的决定,即使对领域专家也是如此。一个人认为是有意义的簇,另一个人可能会认为是巧合。
https://avoid.overfit.cn/post/161e4abfe1fa4e1a98ddf8511c16f2c6