机器学习第二章复习

基于距离的分类器

基于距离的分类的基本概念

把样本到每个类的距离作为决策模型,将测式样本判定为与其距离最近的类

常见的几种距离度量

欧氏距离(Euclidean Distance)

n维空间点a(x11,x12,…,x1n)与b(x21,x22,…,x2n)间的欧氏距离(两个n维向量):

曼哈顿距离(Manhattan Distance)

n维空间点a(x11,x12,…,x1n)与b(x21,x22,…,x2n)的曼哈顿距离:

加权欧式距离

对每维特征设置不同的权重

MED分类器

MED分类器是最小欧氏距离分类器
距离衡量:欧氏距离
类的原型:均值

MED分类器的决策边界

对于两个类来说MED分类器的决策方程为

在高维空间中,该决策边界是一个超平面,垂直平分两个类原型的线

MED分类器举例

C1={(5,4),(7,0),(3.5,1),(4.5,3)}
C2={(4,4),(8,5),(8,3),(12,4)}
判断y=(4,5)所属的类别

所以由图可得,y属于C1类
但本图中,直观上y更接近于C2类。
因为MED分类器没有考虑特征变化的不同以及特征之间的相关性。

特征白化

目的:将原始特征映射到新的一个特征空间,使得在新空间中特征的协方差为单位矩阵,从而去除特征变化的不同及特征之间的相关性
将特征转化分为两步:先去除特征之间的相关性(解耦),然后再对特征进行尺度变化(白化)
令W=W1W2
解耦:通过W1实现协方差矩阵对角化,去除特征之间的相关性
白化:通过W2对上一步变换后的特征再进行尺度变换实现所有特征具有相同方差
得到W1:
1、求协方差矩阵的特征值和特征向量
2、由特征向量构建转换矩阵W1

W2的求解:

W的求解:

W转化后的欧氏距离为

为马氏距离

欧氏距离和马氏距离

马氏距离表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺度无关的。

如果S−1是单位阵的时候,马氏距离简化为欧氏距离。
马氏距离的缺点:夸大了变化微小的变量的作用。受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出。

马氏距离的优点

马氏距离有很多优点: 马氏距离不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关;由标准化数据和中心化数据(即原始数据与均值之差)计算出的二点之间的马氏距离相同。马氏距离还可以排除变量之间的相关性的干扰。
当求距离的时候,由于随机向量的每个分量之间量级不一样,比如说x1可能取值范围只有零点几,而x2有可能时而是2000,时而是3000,因此两个变量的离散度具有很大差异
马氏距离除以了一个方差矩阵,这就把各个分量之间的方差都除掉了,消除了量纲性,更加科学合理。

如上图,看左下方的图,比较中间那个绿色的和另外一个绿色的距离,以及中间绿色到蓝色的距离

如果不考虑数据的分布,就是直接计算欧式距离,那就是蓝色距离更近

但实际上需要考虑各分量的分布的,呈椭圆形分布

蓝色的在椭圆外,绿色的在椭圆内,因此绿色的实际上更近

马氏距离除以了协方差矩阵,实际上就是把右上角的图变成了右下角

MICD分类器(最小类内距离分类器)

距离度量:马氏距离
类的原型:均值
判别公式如下:

MICD分类器的决策边界

对于二类分类而言,MICD分类器的决策边界位于到两个类的距离相等的面上即:




MICD分类器的问题

MICD分类器会选择方差较大的类

posted @ 2020-05-04 22:37  zhanglingxin  阅读(843)  评论(0编辑  收藏  举报