马氏距离

转自：http://www.cnblogs.com/likai198981/p/3167928.html

转自：http://blog.csdn.net/luoleicn/article/details/6324266

以维基百科作为引用：

马氏距离是由印度统计学家马哈拉诺比斯（P. C. Mahalanobis）提出的，表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系（例如：一条关于身高的信息会带来一条关于体重的信息，因为两者是有关联的）并且是尺度无关的（scale-invariant），即独立于测量尺度。对于一个均值为 $\mu = ( \mu_1, \mu_2, \mu_3, \dots , \mu_p )^T$ ，协方差矩阵为Σ的多变量矢量 $x = ( x_1, x_2, x_3, \dots, x_p )^T$ ，其马氏距离为

$D_M(x) = \sqrt{(x - \mu)^T \Sigma^{-1} (x-\mu)}$ 马氏距离也可以定义为两个服从同一分布并且其协方差矩阵为Σ的随机变量 $\vec{x}$ 与 $\vec{y}$ 的差异程度：

$d(\vec{x},\vec{y})=\sqrt{(\vec{x}-\vec{y})^T\Sigma^{-1} (\vec{x}-\vec{y})}$

如果协方差矩阵为单位矩阵，马氏距离就简化为欧式距离；如果协方差矩阵为对角阵，其也可称为正规化的马氏距离。

$d(\vec{x},\vec{y})=\sqrt{\sum_{i=1}^p {(x_i - y_i)^2 \over \sigma_i^2}}$

其中σi是xi的标准差。

对于上述的马氏距离，本人研究了一下，虽然看上去公式很简单的，但是其中存在很多模糊的东西，为什么马氏距离是一种考滤到各种特性之间的联系并且是尺度无关的？为什么可以使用协方差矩阵的逆矩阵去掉单位而使之尺度无关。基于此，以下是个人的一些想法。

1、为什么要使变量去掉单位而使尺度无关

基于欧氏距离，两个点之间的长度为：

马氏距离 - scau200630760309 - jianghaijin的博客

每个变量之间尺度都不一样，例如第一个变量的数量级是1000,而第二个变量的数量级是10，如v1=(3000,20),v2 = (5000,50),那么如果只有2维的点中，欧氏距离为：

由上面可以很容易看出，当两个变量都变成数量级为10的时候，第一个变量存在一个权重：10，因而如果不使用相同尺度的时候，不同尺度的变量就会在计算的过程中自动地生成相应的权重。因而，如果两个变量在现实中的权重是相同的话，就必须要先化成相同的尺度，以减去由尺度造成的误差，这就是标准化的由来。

如果化成相同尺度的方法就变成标准化方法了，标准化的方法有很多种，有些办法是使数据化成[0,1]之间，如min-max标准化，有些通过原始数据减去平均值再除标准差的方法，如z-score标准化，有些类似如上面的方法那样，化成相同的数量级的方法，如decimal scaling小数定标标准化。

2、为什么马氏距离是与尺度无关的？

根据上面1所描述，当计算两点的相似度（也可以说是距离的时候），第一步是首先标准化，化成与尺度无关的量，再计算它的距离。但是如果是单纯使每个变量先标准化，然后再计算距离，可能会出现某种错误，原因是可能在有些多维空间中，某个两个维之间可能是线性相关的，如下图所示(引用自：http://xgli0910.blog.163.com/blog/static/46962168201021932741868/）：