Further Generalizations of the Jaccard Index

Costa L. Further generalizations of the jaccard index. 2021.

本文介绍了 Jaccard Index (Jaccard Similarity), 和它的一些变种.

Jaccard Index

  • 对于两个普通的集合 \(A, B\), 它们的 Jaccard Index 为

    \[J(A, B) = \frac{ |A \cap B| }{ |A \cup B| } = \frac{ |A \cap B| }{ |A| + |B| - |A \cap B| }. \]

  • Jaccard Index 对于大部分的 \(A, B\) 的相对关系都能确定出来, 但是也有例外:

  • 上图 (a), (b) 两种情况的 Jaccard Index 都是 \(3 / 7\), 但是其实表达的是两种不同的状态, 为了进一步区分它, 我们引入 Interiority (也成 overlap, homogeneity):

    \[\mathcal{I}(A, B) = \frac{ |A \cap B| }{ \min \{ |A|, |B| \} }. \]

  • 容易证明

    \[0 \le \mathcal{I}(A, B) \le \mathcal{J}(A, B) \le 1. \]

  • 进一步地, 我们可以定义 Coincidence:

    \[\mathcal{C}(A, B) = \sqrt{ \mathcal{J}(A, B), \mathcal{I}(A, B) }. \]

推广到 multisets

  • multisets 值得是集合的每个元素还附带其出现次数, 如

    \[A = \{ (x_1, a_1), (x_2, a_2), \ldots, (x_N, a_N) \}, \\ B = \{ (x_1, b_1), (x_2, b_2), \ldots, (x_N, b_N) \}, \]

    其中 \((a, b)\) 代表各自的出现次数.

  • 接着, 我们可以定义二者的 Jaccard Index:

    \[\mathcal{J}_M (A, B) = \frac{ \sum_{i=1}^N \min (a_i, b_i) }{ \sum_{i=1}^N \max (a_i, b_i). } \]

    其实, 容易发现, \(a_i, b_i\) 不必是非负整数, 可以很容易推广到 \(\mathbb{R}_+\).

  • 对于 Interiority 和 Coincidence 可以类似地进行推广.

推广到 Multiple sets

  • Jacarrd Index:

    \[\mathcal{J} (A_1, \ldots, A_K) = \frac{ |\bigcap_{k=1}^K A_k| }{ |\bigcup_{k=1}^K A_k| }. \]

  • Interiority index:

    \[\mathcal{I}_{[K, i]} (A_1, \ldots, A_k) = \frac{ |\bigcap_{k=1}^K A_k| }{ |X_i| }, \]

    其中 \(X_i\) 表示第 \(i\) 小的 集合.

posted @ 2024-05-23 21:50  馒头and花卷  阅读(14)  评论(0编辑  收藏  举报