《机器学习》第一次作业——第一至第三章学习记录和心得

《机器学习》第一次作业——第一至第三章学习记录和心得

第一章模式识别基本概念

1.模式识别

概念：根据已有知识的表达或者说是函数映射，针对待识别模式，判别决策其所属的类别或者预测其对应的回归值，是一种推理过程，可划分为“分类”和“回归”两种形式。

模型：已有知识的表达方式，即f(x)。
模式识别任务的模型通过机器学习获得。

2.机器学习

概念：利用训练样本，对目标函数进行学习优化（学习参数、模型结构等），得到理想的模型的过程。

3.模型质量的评价

泛化能力：即训练得到的模型不仅要对训练样本有决策能力，也要对新的模式具有决策能力。
提升泛化能力的具体思路：不要过度训练，选择复杂度合适模型；通过调节正则系数，降低过拟合的程度

4.模型性能评估

1）留出法

随机划分：将数据集D随机划分为两个互斥的部分，其中一部分作为训练集S，另一部分用作测试集T。通常训练集和测试集的比例为70%：30%。
同时，训练集测试集的划分有两个注意事项：
1.尽可能保持数据分布的一致性。避免因数据划分过程引入的额外偏差而对最终结果产生影响。在分类任务中，保留类别比例的采样方法称为“分层采样”。
2.采用若干次随机划分避免单次使用留出法的不稳定性。

2）K折交叉验证

将数据集D分为K个子集，取单个子集为测试集，其他K-1个为训练集，进行K次训练和测试，最终返回k个测试结果的均值。

3）留一验证

每次从数据集D中抽取一个样本作为测试集，剩余为训练集，每个样本测试一次，等同于K折交叉验证，K为数据及样本总数。
性能指标度量
准确度（Accuracy）、精度（Precision）、召回率（Recall）、曲线度量（）等

第二章基于距离的分类器

1.MED分类器

基于欧式距离作为距离度量，没有考虑特征变化的不同及特征之间的相关性。

解决方法：使用特征白化去除特征变化的不同及特征之间的相关性。
欧氏距离进行特征白化后为马氏距离。
判别公式：
距离度量：
MED分类器的决策边界

在高维空间中，该决策边界是一个超平面，且该平面垂直且二分连接两个类原型的线

MED分类器的问题：没有考虑特征变化的不同及特征之间的相关性
- 对角线元素不相等：每维特征的变化不同
- 非对角线元素不为0：特征之间存在相关性
- 解决方法：去除特征变化的不同及特征之间的相关性

2.MICD分类器

MICD分类器的定义：最小类内距离(Minimal Intra-Class Distance)分类器由MED分类器演化而来，同样采用均值作为类的原型，但采用马氏距离作为距离度量。将待预测样本判断为与其马氏距离最小的类
马氏距离的属性
MICD分类器的决策边界

MICD分类器的问题

3.特征白化

特征正交白化

目的：将原始特征映射到一个新的特征空间，使得在新空间中特征的协方差矩阵为单位矩阵，从而去除特征变化的不同及特征之间的相关性
将特征转换分为两步：先去除特征之间的相关性（解耦，Decoupling），然后再对特征进行尺度变换（白化，Whitening），使每维特征的方差相等。

特征解耦

第三章贝叶斯决策与学习

1.贝叶斯决策与MAP分类器

贝叶斯规则：已知先验概率和观测概率，模式𝒙属于类𝐶𝑖后验概率的计算公式为：

基于距离的决策

仅考虑每个类别各自观测到的训练样本的分布情况，例如，均值（MED分类器）和协方差（MICD分类器）。
没有考虑类的分布等先验知识，例如，类别之间样本数量的比例，类别之间的相互关系。

概率的观点

随机性：每个样本是一次随机采样，样本个体具有随机性
概率：通常用来表达事物处于每种取值状态的可能性。
每维特征构成一个随机变量，其概率分布由两个元素组成：该特征的取值空间（连续或者离散）。在该特征维度上，样本处于各个取值状态的可能性

2.MAP分类器

将测试样本决策分类给后验概率最大的那个类。给定所有测试样本， MAP分类器选择后验概率最大的类，等于最小化平均概率误差，即最小化决策误差。

判别公式
当σi=σj时，决策边界是线性的。在方差相同的情况下，MAP决策边界偏向先验可能性较小的类，即分类器决策偏向先验概率高的类。
当σi≠σj时，决策边界是关于x的二次型函数,分类器倾向于方差较小(紧致)的类

3.决策风险与贝叶斯分类器

在MAP分类器基础上，加入决策风险因素，得到贝叶斯分类器，给定一个测试样本𝒙，贝叶斯分类器选择决策风险最小的类。
给定所有测试样本 {𝒙}，贝叶斯分类器的决策目标：最小化期望损失。

贝叶斯分类器

定义损失 R(αi|x)=Σjλijp(Cj|x)
贝叶斯分类器会选择风险最小的类

朴素贝叶斯分类器

4.最大似然估计

给定的𝑁个训练样本都是从𝑝(𝒙|𝜃)采样得到的、且都符合iid条件，则所有样本的联合概率密度为：
该函数称为似然函数

学习参数𝜃的目标函数：
使得该似然函数最大

高斯分布参数估计

均值估计关于u的最大似然估计

协方差估计关于的最大似然估计

高斯协方差：

6.贝叶斯估计

给定参数𝜃分布的先验概率以及训练样本，估计参数θ分布的后验概率：

贝叶斯估计步骤

贝叶斯估计具有不断学习的能力。

非参数化方法
基于概率密度估计技术

8.KNN估计

给定𝒙，找到其对应的区域𝑅使其包含𝑘个训练样本，以此计算𝑝（𝒙）。
优缺点：可以自适应的确定𝒙相关的区域𝑅的范围，但不是真正的概率密度表达，概率密度函数积分是 ∞ 而不是1。且容易受到噪声污染。

9.直方图方法

基本原理：

带宽选择：

将特征空间分为m个格子，固定区域R的大小，计算𝒙属于哪个格子，计算所在格子的样本数。以此计算𝑝（𝒙）。
优缺点：减少由于噪声污染造成的估计误差，但是会受到区域交界处样本的影响，并且缺乏自适应能力。

10.核密度估计

基本原理：

核密度估计的优点：

以待估计模式x为中心、自适应确定区域R的位置（类似KNN) 。
使用所有训练样本，而不是基于第k个近邻点来估计概率密度,从而克服KNN估计存在的噪声影响。
如果核函数是连续，则估计的概率密度函数也是连续的。

缺点：

与直方图估计相比，核密度估计不提前根据训练样本估计每个格子的统计值，所以它必须要存储所有训练样本。

posted on 2021-05-05 08:28 长路丶漫漫阅读(172) 评论(0) 收藏举报

刷新页面返回顶部