样本间相似度/距离的计算方法总结

样本间相似度/距离计算方法总结

标签(空格分隔): 机器学习


闵可夫斯基距离

Minkowski距离,也成欧式距离,计算方法为:

\(\begin{equation} dist(X, Y) = (\sum_{i=1}^{n}|x_{i}-y_{i}|^{p})^{\frac{1}{p}} \end{equation}\)

Jaccard相似系数

\(\begin{equation} J(A, B) = \frac{|A \cap B|}{|A \cup B|} \end{equation}\)

余弦相似度(consine similarity)

\(\begin{equation} cos(\theta) = \frac{X^{T}Y}{|X|·|Y|} = \frac{\sum_{i=1}^{n}X_{i}Y_{i}}{\sqrt{\sum_{i=1}^{n}X_{i}^{2}}\sqrt{\sum_{i=1}^{n}Y_{i}^{2}}} \end{equation}\)

Pearson相似系数

\(\begin{equation} \rho_{XY} = \frac{cov(X, Y)}{\sigma_{X}\sigma_{Y}} = \frac{E[(X-\mu_{X})(Y-\mu_{Y})]}{\sigma_{X}\sigma_{Y}} = \frac{\sum_{i=1}^{n}(X_{i}-\mu_{X})(Y_{i}-\mu_{Y})}{\sqrt{\sum_{i=1}^{n}(X_{i} - \mu_{X})^{2}}\sqrt{\sum_{i=1}^{n}(Y_{i} - \mu_{Y})^{2}}} \end{equation}\)

相对熵(K-L散度)

\(\begin{equation} D(p||q) = \sum_{i=1}^{n}p(x)log\frac{p(x)}{q(x)} \end{equation}\)

Hellinger距离

\(\begin{equation} D_{\alpha}(p||q) = \frac{2}{1 - \alpha^{2}}(1-\int p(x)^{\frac{1+\alpha}{2}}q(x)^{\frac{1-\alpha}{2}}dx) \end{equation}\)

余弦相似度 VS Pearson相关系数

可以看到,相关系数就是将x,y坐标向量平移到原点后的夹角余弦。
所以说,在文档间求距离时可以使用夹角余弦,因为它表征了文档取均值化后的随机向量间的相关系数。

在实际的应用中,我们可以根据应用的不同选择合适的距离度量标准。

posted @ 2016-06-29 21:57  江湖小妞  阅读(2116)  评论(0编辑  收藏  举报