聚类 Jaccard 杰卡德系数(JC)
Jaccard相似系数
Jaccard相似系数衡量的则是两个集合的相似性,它定义为两个集合的交集元素在并集中所占的比例。
与Jaccard相似系数相反,Jaccard距离则用不同元素所占的比例来衡量两个集合的区分度。
Jaccard index, 又称为Jaccard相似系数(Jaccard similarity coefficient)用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大,样本相似度越高。
示例 例子
集合A = {a, b, c, d}
集合B = {c, d, e, f}
A∩B = {c, d}
A∪B = {a, b, c, d, e, f}
交集中有2个元素,并集中有6个元素,因此:
杰卡德系数为:J(A,B) = 2/6 = 1/3
杰卡德距离为:1 - J(A,B) = 2/3
评价聚类质量:
在数据集上使用聚类方法之后,需要评估结果簇的质量。
两类方法:外在方法和内在方法
外在方法:有监督的方法,需要基准数据。用一定的度量评判聚类结果与基准数据的符合程度。
内在方法:无监督的方法,无需基准数据。类内聚集程度和类间离散程度。
REF
https://blog.csdn.net/u013288190/article/details/128761738
https://baike.baidu.com/item/Jaccard%E7%B3%BB%E6%95%B0/6784913?fr=aladdin
https://blog.csdn.net/weixin_39785524/article/details/110717499
https://blog.csdn.net/bbbeoy/article/details/81065738?spm=1001.2101.3001.6650.13&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-13.topblog&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-13.topblog&utm_relevant_index=17
https://wenku.baidu.com/view/9a8b6025a5c30c22590102020740be1e650eccec.html (聚类结果评价)
https://www.cnblogs.com/czhwust/p/mlclusterpre.html (聚类结果评价)
https://baike.baidu.com/item/Jaccard%E7%B3%BB%E6%95%B0/6784913?fr=ge_ala