马氏距离理解

在介绍马氏距离之前先看下几个概念:

1 方差:标准差的平方,反映了数据集中数据的离散程度

2 协方差:标准差与方差是衡量一维数据的,当存在多维数据时,要知道每个维度的变量之间是否存在关联,就需使用协方差.协方差是衡量多维数据中,变量之间的相关性.若两个变量之间的协方差为正值,则两个变量间存在正相关,若为负值,则为负相关.

3 协方差矩阵:当变量多了,超过两个了,我们就是用协方差矩阵衡量多变量之间的相关性.

什么是马氏距离呢?

马氏距离与欧式距离不同的是,它考虑到各种特性之间的联系,并且与尺度无关.

 

当协方差矩阵是单位阵的时候,马氏距离简化为欧氏距离,若协方差矩阵是对角阵时 ,简化为标准化的欧式距离.

马氏距离特性:

1.量纲无关,排除变量之间的相关性的干扰;

2.马氏距离的计算是建立在总体样本的基础上的,如果拿同样的两个样本,放入两个不同的总体中,最后计算得出的两个样本间的马氏距离通常是不相同的,除非这两个总体的协方差矩阵碰巧相同;

3 .计算马氏距离过程中,要求总体样本数大于样本的维数,否则得到的总体样本协方差矩阵逆矩阵不存在,这种情况下,用欧式距离计算即可。

4.还有一种情况,满足了条件总体样本数大于样本的维数,但是协方差矩阵的逆矩阵仍然不存在,比如三个样本点(3,4),(5,6),(7,8),这种情况是因为这三个样本在其所处的二维空间平面内共线。这种情况下,也采用欧式距离计算。

 马氏距离与欧式距离:

 

posted @ 2019-07-11 17:18  努力奋斗的阿贝拉  阅读(3044)  评论(0编辑  收藏  举报