二元变量的距离
Binary Variables,只有两种结果,如 Yes 或者 No,True 或者False.... 这里表示为Positive 和 Negative
二元变量属性间的相似度(similarity)和不相似度(dissimilarity)就可以用Positive 和 Negative出现的频率(Number of Occurrence)来计算
非对称性:两个状态不是同等重要的(更重要的/几率较小的赋值1),两个都取1(正匹配)比两个都取0(负匹配)的情况更有意义
定义四个数值,对某二元变量属性,有两个object
p = 两个Object属性值相同的数量(number of variables for both objects)
q = 对于 Object i是Yes,而对Object j是No的属性数量
r = 对于 object i 是No,而对于Object j 是Yes的属性数量
s = 两个Object属性值不相同的数量
t = p + q + r + s
案例
对于买苹果产品这个事件,p=2,q=1,r=0,s=1,总数t=p+q+r+s=4
简单距离计算(Simple Distance Measure)
两者属性值的相似度为 \(S_{ij} = \frac{p + s}{p + q + r + s}\)
简单计算距离为 \(D_{ij} = 1 - S_{ij} = \frac{q + r}{p + q + r + s}\)
Jaccard距离(Jaccard's distance
Paul Jaccard:数值s是两者都没有的属性,那这样的属性可以说是无穷多的,计算上也没什么意义,所以得把s去掉再计算
属性值的相似度为 \(S_{ij} = \frac{p}{p + q + r}\) (Jaccard Coefficient) 也可以写作\(J(A,B)=\frac{A∩B}{A∪B}\)
Jaccard距离为 \(D_{ij} = 1 - S_{ij} = \frac{q + r}{p + q + r}\)
注: 对于非二元变量,通常采用Jaccard距离来表示相异度
注: Jaccard Coefficient是计算两个集合相似度的一个指标,而Jaccard distance正好相反,即两个集合中不同元素占所有元素的比例来衡量两个集合的区分度