第一章 模式识别基本概念学习笔记
模式识别基本概念
什么是模式识别
- 模式识别:根据已有知识的表达,针对待识别模式,判别决策其所属的类别或者预测其对应的回归值
- 模式识别本质上是推理的过程。
模式识别数学表达
- 数学解释:模式识别可以看做一种函数的映射,将待识别模式x从输入空间映射到输出空间
模型的概念
- 模型:已有知识的表达式 y=f(x)
- 模型的组成:特征提取+回归器+判别函数
特征提取:从原始输入数据提取更有效的信息
回归器:将特征映射到回归值
判别函数:决策边界 - 特征:用于区分不同类别模式的、可测量的量
- 特性:具有辨别能力
- 特征的鲁棒性:针对不同的观测条件仍能有效的判别类别之间的差异性
- 特征向量
特征向量的相关性
- 特征向量的点积
- 特征向量的投影
- 残差向量
- 特征向量的欧式距离
机器学习基本概念
- 机器学习拿什么学
训练样本 - 学什么
y=f(x|θ)
线性模型
非线性模型即线性不可分 - 机器学习怎么学
目标函数:为了完成某一目标,需要构造出一个“目标函数”来,然后让该函数取极大值或极小值,从而得到机器学习算法的模型参数
-机器学习过程
- 机器学习分类:
无监督、半监督、监督式学习
模型的泛化能力
- 泛化能力指,机器学习方法训练出来一个模型,对于已知的数据(训练集)性能表现良好,对于未知的数据(测试集)也应该表现良好的机器能力
- 泛化能力低的表现
过拟合:在训练阶段表现良好在测试阶段表现很差
提高泛化能力:不要过度训练
模型选择
引入正则项 - 多项式拟合超参数
评估方法与性能指标
- 留出法
留出法直接将数据集D DD划分为两个互斥的部分,其中一部分作为训练集S SS,另一部分用作测试集T TT。
通常训练集和测试集的比例为70%:30%。同时,训练集测试集的划分有两个注意事项:
1. 尽可能保持数据分布的一致性。避免因数据划分过程引入的额外偏差而对最终结果产生影响。在分类任务中,保留类别比例的采样方法称为“分层采样”(stratified sampling)。
2. 采用若干次随机划分避免单次使用留出法的不稳定性。
- 性能测试指标
经度&召回率
F-Score
混淆矩阵