特征-相似度衡量

明氏距离(Minkowski Distance)

\[d(x,y)=(\sum_{k=1}^n|x_k-y_k|^s)^{1\over s} \]

s越大,某一维上的较大差异对最终差值的影响也越大.

  • s=1, 曼哈顿距离
  • s=2, 欧式距离
  • s=∞,上确界距离(Supermum Distance),等同于切比雪夫距离

广义的n维空间中的度量,通也被称为\(L_s\)范数.
Manhattan距离又称City Block Distance(城市距离、棋盘距离).
欧式距离就是\(L_2\)范数,欧式距离缺点:
欧几里得距离对平移太敏感,因为忽略平移不变性问题而不加分辨的使用欧几里得距离来比较模式之间的相似性,有时候会带来严重的误差;在处理其他的转换(比如图像旋转,或尺度变换)时,也存在适应性很差的缺点。

切比雪夫距离

\[d(x,y)=\max_{1\le k\le n}|x_k-y_k| \]

通常也被称为\(L_∞\)范数

汉明距离

字符串或编码由一个变为另一个所需操作的最小替换次数。
汉明距离在simhash算法(可用于比较两个文档之间的相似度)中也有重要应用。

皮尔逊相关系数(Pearson correlation coefficient)

如果两个向量x,y的值的范围相差较大,如[1,5]跟[10,100],那么计算相似度时使用欧式距离等方法显然不合适.在不进行归一化的条件下可以使用皮尔逊相关系数计算一致性.

\[\begin{align} r &={ \sum_{i=1}^n(x_i-\bar x)(y_i-\bar y) \over \sqrt{ \sum_{i=1}^n(x_i-\bar x)^2}\sqrt{ \sum_{i=1}^n(y_i-\bar y)^2}}\in[-1,1] \\ &= {\sum_{i=1}^n x_iy_i -{1\over n}\sum_{i=1}^n x_i\sum_{i=1}^n y_i \over \sqrt{\sum_{i=1}^n x_i^2-{1\over n}(\sum_{i=1}^n x_i)^2}\sqrt{\sum_{i=1}^n y_i^2-{1\over n}(\sum_{i=1}^n y_i)^2}} \end{align} \]

在编程实现上通常使用第二个式子计算,好处是可以通过单遍扫描来实现.
好的一致性,如r=1在二维平面上表现为所有点在一条直线上.

皮尔逊相关距离

\(D_{XY}=1-\rho_{XY}\)

马氏距离(Mahalanobis Distance)

\[d(x,y)=\sqrt{(x-y)^T\Sigma^{-1}(x-y)} \]

由印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出,表示数据的协方差距离。是一种有效的计算两个未知样本集的相似度的方法。
与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的),并且是尺度无关的(scale-invariant),即独立于测量尺度。
如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离。

余弦相似度

向量点积

向量\(\lt X,Y \gt\)的点积:

\[X\cdot Y=\sum_{i=1}^n (x_i y_i) \]

\(R^n\)中的两个向量通过点积的方式映射成一个实数值,可以将\(R^n\)称为n维欧几里得空间,点积称为欧式点积。

向量长度

\[\|X\|=\sqrt{X\cdot X}=\sqrt{\sum_{i=1}^n (x_i)^2} \]

又称为\(R^n\)上的欧式范数。

余弦相似度

\[\theta_{similarity}=cos(\theta)=\frac{X\cdot Y}{\|X\|\cdot \|Y\|}=\frac{\sum_{i=1}^n (x_i y_i)}{\sqrt{\sum_{i=1}^n (x_i)^2 \cdot \sum_{i=1}^n (y_i)^2}} \]

即两个向量间夹角的余弦值。

在图像分类中的应用

余弦相似度可用在任何维度的向量比较中,因此在高维空间中被广泛应用。
过程如下:

  1. 计算每类样本中的特征向量(类别特征)
  2. 对未知分类的图像计算其样本特征
  3. 计算两个响亮的余弦相似度
  4. 选择余弦相似度最大的类别作为未知图像对应的类别或将大于阈值的多个类别作为结果。

最简单的提取图像特征向量的方法:

  1. 将图像分成几大块
  2. 计算每一块的颜色值的均值
  3. 均值组成的向量即为特征码。

文本分类

如文本s是一段军事新闻的描述,现在需要对两段新闻t1、t2进行分类,判断哪个更像是军事方面的。

  1. 文本预处理,如果是中文,使用结巴分词等完成中文分词,形成词条库,并去除无关紧要的停用词。
  2. 统计每个词条的词频。
  3. 由每个词的词频组成特征码
  4. 余弦相似性计算。

距离测度的选取原则

需要精心选择类内变化平缓,类间变化剧烈的距离测度!

posted @ 2017-07-01 23:43  康行天下  阅读(5483)  评论(0编辑  收藏  举报