Further Generalizations of the Jaccard Index

Costa L. Further generalizations of the jaccard index. 2021.

本文介绍了 Jaccard Index (Jaccard Similarity), 和它的一些变种.

Jaccard Index

  • 对于两个普通的集合 A,B, 它们的 Jaccard Index 为

    J(A,B)=|AB||AB|=|AB||A|+|B||AB|.

  • Jaccard Index 对于大部分的 A,B 的相对关系都能确定出来, 但是也有例外:

  • 上图 (a), (b) 两种情况的 Jaccard Index 都是 3/7, 但是其实表达的是两种不同的状态, 为了进一步区分它, 我们引入 Interiority (也成 overlap, homogeneity):

    I(A,B)=|AB|min{|A|,|B|}.

  • 容易证明

    0I(A,B)J(A,B)1.

  • 进一步地, 我们可以定义 Coincidence:

    C(A,B)=J(A,B),I(A,B).

推广到 multisets

  • multisets 值得是集合的每个元素还附带其出现次数, 如

    A={(x1,a1),(x2,a2),,(xN,aN)},B={(x1,b1),(x2,b2),,(xN,bN)},

    其中 (a,b) 代表各自的出现次数.

  • 接着, 我们可以定义二者的 Jaccard Index:

    JM(A,B)=i=1Nmin(ai,bi)i=1Nmax(ai,bi).

    其实, 容易发现, ai,bi 不必是非负整数, 可以很容易推广到 R+.

  • 对于 Interiority 和 Coincidence 可以类似地进行推广.

推广到 Multiple sets

  • Jacarrd Index:

    J(A1,,AK)=|k=1KAk||k=1KAk|.

  • Interiority index:

    I[K,i](A1,,Ak)=|k=1KAk||Xi|,

    其中 Xi 表示第 i 小的 集合.

posted @   馒头and花卷  阅读(24)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
历史上的今天:
2023-05-23 Learning with Local and Global Consistency
2021-05-23 Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations
2020-05-23 Product Integration
2019-05-23 Least Angle Regression
点击右上角即可分享
微信分享提示