《机器学习》第一次作业——第一至三章学习记录和心得

第一章模式识别基本概念

1.1 什么是模式识别

模式识别分为以下两种模式：

分类——输出是离散的类别表示，即输出待识别模式所属的类别；有二类/多类
回归——输出量是连续的信号表达（回归值）；输出量是单个/多个维度

回归是分类的基础：离散的类别值是由回归值做判别决策得到的。

模式识别——根据已有知识的表达，针对待识别模式，判别决策其所属的类别或者预测其对应的回归值。

模式识别本质上是一种推理（inference）过程。

1.2 模式识别数学表达

数学解释——模式识别可以看做一种函数映射f（x）

模型——关于已有知识的一种表达方式，即函数y=f(x)

特征提取
回归器——将特征映射到回归值

判别函数——用特定的非线性函数实现，判别器有二类分类和多累分类；判别函数不能当做模型的一部分

判别公式和决策边界——用来分类

特征

特征的特征——辨别能力
特征的特性——鲁棒性
特征向量——模长（标量）×方向（单位向量）
特征空间

1.3 特征向量的相关性

度量特征向量两两之间的相关性是识别模式之间是否相似的基础

点积

代数定义（标量、对称性，线性变化）
几何定义（可体现方向上的相似度）

投影——将向量想垂直投射到向量y方向上的长度；不具备对称性

点积可通过投影表达

残差向量——向量x分解到y方向上得到的投影向量与原向量x的误差

欧氏距离——表征两个向量之间的相似程度（综合考虑方向和横长）

1.4 机器学习基本概念

线性模型——线性的（直线、面、超平面）

非线性模型——（曲面、曲线、超曲面）

常见非线性模型：多项式、神经网络、决策树...

训练样量N与模型参数的关系

N=M:参数有唯一解
N>>M:没有准确的解（over-determined）
N<<M:无数个解/无解

优化算法——最小化或最大化目标函数

机器学习方式

监督式学习——训练样本及其输出真值都给定情况下的机器学习算法
无监督式学习——只给定训练样本、没有给输出真值情况下的机器学习算法；算法难度远高于监督式学习；应用于聚类、图像分割
半监督式学习——既有标注的训练样本、又有未标注的训练样本情况下的学习算法

1.5 模型泛化能力

泛化能力——训练得到的模型不仅要对训练样本具有决策能力，也要对新的(训练过程中未看见)的模式具有决策能力。

提高泛化能力——不要过度训练。

选择复杂度适合的模型
在目标函数中加入正则项来实现

1.6 评估方法与性能指标

评估方法

留出法(Hold-out)——随机划分；将数据集随机分为两组:训练集和测试集。利用训练集训练模型，然后利用测试集评估模型的量化指标。
K折交叉验证(K-Folds Cross Validation)——将数据集分割成K个子集，从其中选取单个子集作为测试集，其他K - 1个子集作为训练集。
留一验证(leave- one-out cross-validation)——每次只取数据集中的一个样本做测试集，剩余的做训练集。

性能指标度量

F-Score——

曲线度量——PR曲线、ROC曲线、曲线下方面积AUC

第二章基于距离的分类器

2.1 MED分类器

基于距离的决策——把测试样本到每个类之间的距离作为决策模型，将测试样本判定为与其距离最近的类。

类的原型——用来代表这个类的一个模式或者一组量，便于计算该类和测试样本之间的距离

距离度量

MED分类器

概念——最小欧式距离分类器(Minimum Euclidean Distance Classifier)
距离衡量——欧式距离
类的原型——均值
决策边界——
存在的问题——MED分类器采用欧氏距离作为距离度量，没有考虑特征变化的不同及特征之间的相关性。
解决方法——特征白化

2.3 特征白化

目的——去除特征变化的不同特性及特征之间的相关性

步骤——先去除特征之间的相关性(解耦, Decoupling),然后再对特征进行尺度变换(白化，Whitening)，使每维特征的方差相等。
令

MICD分类器

概念——最小类内距离分类器(Minimum Intra-class Distance Classifier) ,基于马氏距离的分类器。
距离度量——马氏距离
类的原型——均值
缺陷——会选择方差较大的类

第三章贝叶斯决策与学习

3.1贝叶斯决策与MAP分类器

基于距离的决策仅考虑各自训练样本的分布情况，而没有考虑类的分布等先验知识

将后验概率用于分类决策，决策时找后验概率最大的那个类

基于贝叶斯规则，计算后验概率

MAP分类器（最大后验概率分类器）——将测试样本决策分类给后验概率最大的那个类

给定所有测试样本，MAP分类器选择后验概率最大的类，等于最小化平均概率误差即最小化决策误差

3.2 MAP分类器：高斯观测概率

1、表达先验和观测概率的方式

常数表达：例如，𝑝 𝐶𝑖 = 0.2
参数化解析表达：高斯分布……
非参数化表达：直方图、核密度、蒙特卡洛…

代入MAP分类器判别公式并化简得；为了得到决策边界，设置判别公式两边相等

和MICD、MED分类器相比，MAP分类器偏向于先验可能性比较大的类、分布较为紧致的类。

3.3 决策风险与贝叶斯分类器

决策风险——贝叶斯决策可能会出现错误判断，并且不同的错误决策会产生程度完全不一样的风险

因此引入损失（loss）的概念，针对决策进行损失评估；

贝叶斯决策的期望损失——所有样本的决策损失之和

决策目标：最小化期望损失，即对每个测试样本选择风险最小的类

贝叶斯分类器——在MAP分类器基础上，加入决策风险因素；给定一个测试样本x，贝叶斯分类器选择风险最小的类

判别公式：

朴素贝叶斯分类器——假设特征之间是相互独立，从而推出以下公式

决策边界附近的处理——为避免错误决策，分类器可以拒绝

3.4 最大似然估计

常用的参数估计方法

最大似然估计
贝叶斯估计

先验概率估计

P为待学习的参数

先验概率的最大似然估计就是该类训练样本出现的频率
高斯分布均值的最大似然估计等于样本的均值
高斯分布协方差的最大似然估计等于所有训练模式的协方差

3.5 最大似然的估计偏差

无偏估计——如果一个参数的估计量的数学期望是该参数的真值，则该估计量为无偏估计

这意味着训练样本个数足够多，该估计值就是参数的真实值

最大似然估计

3.6 &3.7 贝叶斯估计

贝叶斯估计——给定参数分布的先验概率以及训练样本，估计参数分布的后验概率

高斯观测似然

假设参数的先验概率分布也服从单位高斯分布，根据先验概率和基于训练样本的观测似然，计算后验概率，可以解出

分析

给定𝐶𝑖类的𝑁𝑖个训练样本，参数θ概率分布的均值等于训练样本均值和该参数先验概率均值的加权和。
给定𝐶𝑖类的𝑁𝑖个训练样本，参数θ概率分布的方差是由𝐶𝑖类观测似然分布的方差、该参数的先验概率方差、 𝐶𝑖类的样本个数共同决定
当Ni足够大时，样本均值m就是参数θ的无偏估计

参数先验对后验的影响

如果参数的先验方差𝜎0 = 0，则𝜇𝜃 → 𝜇0，意味先验的确定性较大，先验均值的影响也更大，使得后续训练样本的不断进入对参数估计没有太多改变。
如果参数的先验方差𝜎0 ≫ 𝜎，则𝜇𝜃 → 𝑚，意味着先验的确定性非常小。刚开始由于样本较少，导致参数估计不准。随着样本的不断增加，后验均值会逼近样本均值。

贝叶斯具备不断学习的能力

观测似然概率的估计

参数为随机参数，观测似然通过求边缘概率；由于各个类别单独估计概率分布，上式写为

贝叶斯估计与最大似然估计

贝叶斯估计把𝜃当做隐随机变量，所以需要求关于𝜃 的边缘概率，从而来得到观测似然；而最大似然估计有明确的目标函数，通过优化技术来求取𝜃 ML

3.8 KNN估计

常用的无参数技术

K近邻法(K-nearest neighbors)
直方图技术(Histogram technique)
核密度估计(Kernel density estimation）

概率密度估计基本理论

给定𝑁个训练样本，在特征空间内估计每个任意取值𝒙的概率密度，即估计以𝒙为中心、在极小的区域𝑅 = (𝒙, 𝒙 + 𝛿𝒙) 内的概率密度函数𝑝(𝒙)；

无参数估计的任务：估计概率𝑝(𝒙)。
如果区域𝑅足够小，𝑃是𝑝(𝒙)的平滑版本，可以用来估计𝑝(𝒙)。
k个样本落在区域R内的概率密度可以用二项分布表达当N很大时，k的分布非常尖锐且集中在均值附近；二项分布的均值；因此N很大时，可用均值表达k的分布；得到P的近似估计

KNN估计（K近邻估计）——给定x，找到其对应的区域R使其包含k个训练样本，以此计算p（x）

概率密度表达为：

训练样本个数N越大，k取值越大，概率估计的越准确

优点：可以自适应的确定x相关的区域R的范围。
缺点：KNN概率密度估计不是连续函数，计算出的概率并不是真正的概率密度表达，积分回到正无穷而不是1。在推理测试阶段仍然需要存储所有训练样本，且易受噪声影响。

3.9 直方图与核密度估计

直方图估计

优点：减少由于噪声污染造成的估计误差；不需要存储训练样本
缺点：估计可能不准确；缺乏概率估计的自适应能力，导致过于尖锐或平滑

核密度估计

估计对比

KNN估计：以待估计的任意一个模式为中心，搜寻第𝑘个近邻点，以此来确定区域，易被噪声污染。
直方图估计：手动将特征空间划分为若干个区域，待估计模式只能分配到对应的固定区域，缺乏自适应能力

posted on 2021-05-05 10:29 tingfa 阅读(195) 评论(0) 编辑收藏举报

刷新页面返回顶部

tingfa

导航

公告

《机器学习》第一次作业——第一至三章学习记录和心得

第一章模式识别基本概念

1.1 什么是模式识别

1.2 模式识别数学表达

1.3 特征向量的相关性

1.4 机器学习基本概念

1.5 模型泛化能力

1.6 评估方法与性能指标

第二章基于距离的分类器

2.1 MED分类器

2.3 特征白化

第三章贝叶斯决策与学习

3.1贝叶斯决策与MAP分类器

3.2 MAP分类器：高斯观测概率

3.3 决策风险与贝叶斯分类器

3.4 最大似然估计

3.5 最大似然的估计偏差

3.6 &3.7 贝叶斯估计

3.8 KNN估计

3.9 直方图与核密度估计

tingfa

导航

公告

《机器学习》第一次作业——第一至三章学习记录和心得

第一章模式识别基本概念

1.1 什么是模式识别

1.2 模式识别数学表达

1.3 特征向量的相关性

1.4 机器学习基本概念

1.5 模型泛化能力

1.6 评估方法与性能指标

第二章基于距离的分类器

2.1 MED分类器

2.3 特征白化

2.3 MICD分类器

第三章贝叶斯决策与学习

3.1贝叶斯决策与MAP分类器

3.2 MAP分类器：高斯观测概率

3.3 决策风险与贝叶斯分类器

3.4 最大似然估计

3.5 最大似然的估计偏差

3.6 &3.7 贝叶斯估计

3.8 KNN估计

3.9 直方图与核密度估计