metric learning -- 马氏距离与欧氏距离

一 基本概念

 方差:(variance)是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。在许多实际问题中,研究方差即偏离程度有着重要意义。

在统计描述中,方差用来计算每一个变量(观察值)与总体均数之间的差异。为避免出现离均差总和为零,离均差平方和受样本含量的影响,统计学采用平均离均差平方和来描述变量的变异程度。总体方差计算公式:
为总体方差,为变量,为总体均值,为总体例数。
 
记住,欧氏距离不是方差,欧氏距离是定义了两个值之间的距离!!!!!!
同样,马氏距离也不是协方差!!!!!!!
 

协方差:标准差与方差是描述一维数据的,当存在多维数据时,我们通常需要知道每个维数的变量中间是否存在关联。协方差就是衡量多维数据集中,变量之间相关性的统计量。比如说,一个人的身高与他的体重的关系,这就需要用协方差来衡量。如果两个变量之间的协方差为正值,则这两个变量之间存在正相关,若为负值,则为负相关。

概率论和统计学中,协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。
期望值分别为E[X]与E[Y]的两个实随机变量XY之间的协方差Cov(X,Y)定义为:
从直观上来看,协方差表示的是两个变量总体误差的期望。
如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
如果XY是统计独立的,那么二者之间的协方差就是0,因为两个独立的随机变量满足E[XY]=E[X]E[Y]。

 

二 马氏距离

马氏距离是由印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出的,表示数据的协方差距离。

协方差矩阵,当变量多了,超过两个变量了。那么,就用协方差矩阵来衡量这么多变量之间的相关性。假设 X 是以 n 个随机变数(其中的每个随机变数是也是一个向量,当然是一个行向量)组成的列向量:

 

 

 

 马氏距离:它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺度无关的(scale-invariant),即独立于测量尺度。

 

 

 将马氏距离用于人脸识别时,x是预测出的数值,μ是期望(标签)。人脸图像大小为200*200时,那么x应该是200*200大小的,相应地,协方差矩阵也时一个大矩阵的,而Dm(x)则是标量。

而欧氏距离用于人脸识别,x是预测出的额值,μ是期望(标签)。人脸图像大小为200*200时,那么X也是200*200的,但是输出σ2也是标量。

 

 

knn中,使用马氏距离比使用欧式距离好,为什么?

knn中,使用马氏距离,则协方差矩阵是训练集的协方差矩阵。d=(x-y)‘R^-1(x-y)

使用欧式距离d = (x-y)’(x-y)

不同之处在于马氏距离,多乘一个R^-1,从而得到的距离必然与欧氏距离不同。而给x分类的关键局势距离的大小,选择合适的距离度量是大事。

但说到底,都是计算两个距离,然后使用投票方式,选出x的标签。

http://blog.csdn.net/zb1165048017/article/details/48579743

 

posted on 2017-09-26 16:38  MissSimple  阅读(2589)  评论(0编辑  收藏  举报

导航