一些基础的度量

部分摘自 ☆Ronny丶,是一个大佬,但是不知道为啥页面上的公式在我的电脑上渲染的是崩的。

1. 欧氏距离

常用的几何上两点距离的度量,即求 \(L_2\) — 范数

\(R^n\) 空间中有两点 \(A, B\),则这两点的距离为:

\[d(A,B) = \sqrt{\sum_{i=1}^n (A_i - B_i)^2} \]

当然,也可以表示成为向量的形式,设 \(R^n\) 中有两个 \(n\) 维向量 \(\vec a, \vec b\),则:

\[d(\vec a, \vec b) = \sqrt{(\vec a-\vec b)(\vec a - \vec b)^{T}} \]

2. 标准化欧氏距离

对欧氏距离的一个改进,但是要求基于一个数据集的分布。

\[d(\vec a, \vec b) = \sqrt{\sum_{i=1}^n (\dfrac{a_i - b_i}{S_i})^2} \]

其中 \(S_i\) 表示在第 \(i\) 维上的方差。

3. 曼哈顿距离

我们可以定义曼哈顿距离的正式意义为 \(L_1\)—范数或城市区块距离,也就是在欧几里得空间的固定直角坐标系上两点所形成的线段对轴产生的投影的距离总和。

在平面网格上两点 \(A,B\) 的距离为:

\[d(A,B) = |x_A - x_B| + |y_A - y_B| \]

当然,也可以拓展到 \(n\) 维向量上:

\[d(\vec a, \vec b) = \sum_{i=1}^{n} |a_i - b_i| \]

要注意的是,曼哈顿距离依赖座标系统的转度,而非系统在座标轴上的平移或映射。

4. 切比雪夫距离

也被称为棋盘距离,描述了两个实值向量在任意维度的最大距离,即求 \(L_{\infty}\)—范数,公式如下:

\[d(\vec a, \vec b) = \max_{i} |a_i - b_i| \]

5. 闵可夫斯基距离

即求 \(L_p\)—范数,是上述距离度量的广义形式:

\[d(\vec a, \vec b) = \sqrt[p]{\sum_{i=1}^{n} (a_i - b_i)^p} \]

6. 余弦相似度和距离

其一般作为方向上的度量,通常情况下会忽略向量的大小:

\[d(\vec a, \vec b) = \cos(\alpha) = \dfrac{\vec a \cdot \vec b}{||\vec a||\,||\vec b||} \]

其中 \(||\vec a||\) 表示 \(\vec a\)\(L_2\)—范数。

7. 半正矢距离

描述球上两点之间的最短距离:

\[d(A,B) = 2r\arcsin \left( \sqrt{\sin^2 \left( \dfrac{\varphi_2 - \varphi_1}{2}\right) + \cos \varphi_1 \cos \varphi_2 \sin^2 \left( \dfrac{\lambda_2 - \lambda_1}{2}\right) }\right) \]

其中 \(r\) 为球的半径, \(\varphi, \lambda\) 分别表示经度和纬度。

8. 汉明距离

描述两个相同维度的向量之间的距离,值域 \([0,1]\)

\[d(\vec a, \vec b) = \dfrac{\sum_{i=1}^n [a_i \not= b_i]}{n} \]

其中 \([condition]\) 为艾弗森括号。

9. 马氏距离

\(M\) 个样本向量 \(x_1 \dots x_M\),设 \(S\) 为其协方差矩阵,均值标记为向量 \(\mu\),则:

\[d(X) = \sqrt{(X-\mu)^T S^{-1} (X - \mu)} \]

其中两个向量 \(\vec x_i, \vec x_j\) 之间的马氏距离为:

\[d(x_i, x_j) = \sqrt{(\vec x_i - \vec x_j)^{T}S^{-1}(\vec x_i - \vec x_j)} \]

显然的是,当协方差矩阵为单位矩阵时,马氏距离即为欧氏距离。

10. 巴氏距离

一般用于描述两个概率分布之间的相似性。

\(p,q\) 为两个离散概率分布,则:

\[d(p,q) = -\ln BC(p,q) \]

其中 \(BC(p,q)\) 叫做 Bhattacharyya 系数(巴氏系数):

\[BC(p,q) = \sum_{x\in X} \sqrt{p(x)q(x)} \]

\(p,q\) 为两个连续概率分布,则:

\[d(p,q) = -\ln BC(p,q) \]

其中,\(BC(p,q)\) 的定义是:

\[BC(p,q) = \int \sqrt{p(x)q(x)} dx \]

11. 杰卡德相似系数

设有两个集合 \(A,B\),则杰卡德相似系数为:

\[J(A,B) = \frac{|A \cup B|}{|A \cap B|} \]

两个集合的杰卡德距离为:

\[d(A,B) = \dfrac{1}{J(A,B)} \]

12. Sorensen-Dice 指数

跟杰卡德距离有点像,设有两个集合 \(A,B\),则:

\[d(A,B) = \dfrac{2|A\cap B|}{|A|+|B|} \]

posted @ 2023-10-04 17:21  Larry76  阅读(36)  评论(0编辑  收藏  举报