机器学习第二章复习

基于距离的分类器

基于距离的分类的基本概念

把样本到每个类的距离作为决策模型，将测式样本判定为与其距离最近的类

常见的几种距离度量

欧氏距离(Euclidean Distance)

n维空间点a(x11,x12,…,x1n)与b(x21,x22,…,x2n)间的欧氏距离（两个n维向量）：

曼哈顿距离(Manhattan Distance)

n维空间点a(x11,x12,…,x1n)与b(x21,x22,…,x2n)的曼哈顿距离：

加权欧式距离

对每维特征设置不同的权重

MED分类器

MED分类器是最小欧氏距离分类器
距离衡量：欧氏距离
类的原型：均值

MED分类器的决策边界

对于两个类来说MED分类器的决策方程为

在高维空间中，该决策边界是一个超平面，垂直平分两个类原型的线

MED分类器举例

C1={(5,4),(7,0),(3.5,1),(4.5,3)}
C2={(4,4),(8,5),(8,3),(12,4)}
判断y=(4,5)所属的类别

所以由图可得，y属于C1类
但本图中，直观上y更接近于C2类。
因为MED分类器没有考虑特征变化的不同以及特征之间的相关性。

特征白化

目的：将原始特征映射到新的一个特征空间，使得在新空间中特征的协方差为单位矩阵，从而去除特征变化的不同及特征之间的相关性
将特征转化分为两步：先去除特征之间的相关性（解耦），然后再对特征进行尺度变化（白化）
令W=W1W2
解耦：通过W1实现协方差矩阵对角化，去除特征之间的相关性
白化：通过W2对上一步变换后的特征再进行尺度变换实现所有特征具有相同方差
得到W1：
1、求协方差矩阵的特征值和特征向量
2、由特征向量构建转换矩阵W1

W2的求解：

W的求解：

W转化后的欧氏距离为

为马氏距离

欧氏距离和马氏距离

马氏距离表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系（例如：一条关于身高的信息会带来一条关于体重的信息，因为两者是有关联的）并且是尺度无关的。

如果S−1是单位阵的时候，马氏距离简化为欧氏距离。
马氏距离的缺点：夸大了变化微小的变量的作用。受协方差矩阵不稳定的影响，马氏距离并不总是能顺利计算出。

马氏距离的优点

马氏距离有很多优点：马氏距离不受量纲的影响，两点之间的马氏距离与原始数据的测量单位无关；由标准化数据和中心化数据(即原始数据与均值之差）计算出的二点之间的马氏距离相同。马氏距离还可以排除变量之间的相关性的干扰。
当求距离的时候，由于随机向量的每个分量之间量级不一样，比如说x1可能取值范围只有零点几，而x2有可能时而是2000，时而是3000，因此两个变量的离散度具有很大差异
马氏距离除以了一个方差矩阵，这就把各个分量之间的方差都除掉了，消除了量纲性，更加科学合理。

如上图，看左下方的图，比较中间那个绿色的和另外一个绿色的距离，以及中间绿色到蓝色的距离