第二次作业
模式识别
基本定义
根据已有知识的表达,针对待识别模式,判别决策其所属的类别或者预测其对应的回归值。
根据任务,模式识别可以划分为“分类”和“回归”两种形式,其中分类的输出量是离散的,回归的输出量是连续的。
数学解释
模式识别可以看作一种函数映射\(f(x)\)将待识别模式\(x\)从输入空间映射到输出空间,函数\(f(x)\)是关于已有知识的表达。其输出可以是确定值也可以是概率值。
模型
已有知识的表达方式,函数\(f(x)\)
特征提取
从原始输入数据提取更有效的信息
特征向量
多个特征构成的向量
特征空间
从坐标原点到任意一点之间的向量即为该模式的特征向量
特征向量相关性
点积
表征两个特征向量的共线性,即方向上的相似程度。
代数定义:
几何定义:
两个向量的夹角:反映两个向量在方向上的差异性。
特征向量投影
将向量x垂直投影到向量y方向上的长度
残差向量
向量x分解到向量y方向上得到的投影向量和原向量x的误差:
特征向量的欧式距离
表征两个向量之间的相似程度(考虑方式和长度)
机器学习
基本内容
模型的参数与结构
参数:\(\theta={\theta_1.…,\theta_M}\)
样本量和模型参数量的关系
相等:具有唯一解,大于:无准确解,小等于:无数个解或无解。
目标函数\(L(\theta|{x_i})\)
又称为代价函数或损失函数,作为选择最优参数解的一个标准
评估模型性能
方法
- 留出法:将数据集随机划分为训练集和测试集,利用训练集训练模型,用测试集评估,取统计值。
- k折交叉验证:将数据集分割成k个子集,从其中选取单个子集作为测试集,其他k-1个子集作为训练集。
- 留1验证:选取数据集中的一个样本做测试集,剩余的做训练集,具有确定性,存在分层问题问题。
指标
- 准确度:\(A=\frac{TP+TN}{TP+TN+FP+FN}\)
- 查准率:\(S=\frac{TN}{TN+FP}\)
- 召回率:\(R=\frac{TP}{TP+FN}\)
- F-Score:\(F=\frac{(a^2+1)\times precision\times recall}{a^2\times precision+recall}\),至a=1,得到F1-score。
- PR曲线:召回率-精度
- ROC曲线:FPR-TPR
- AUC:曲线下方面积
MED分类器
利用欧式距离作为度量标准,最小欧式距离分类器,会存在特征变化的不同及特征之间的相关性,可以通过特征白化和特征解耦来去除特征间的相关性。
MICD分类器
利用马氏距离作为度量标准,最小类内距离分类器,存在均值一样,会选择方差较大的类
马氏距离:
贝叶斯规则
- \(p(C_i)\)先验概率
- \(p(x|C_i)\)观测似然概率
- \(p(x)=\sum_jp(x|c_j)p(c_j)\),所有类别样本x的边缘概率
MAP分类器
利用后验概率作为度量标准,最大后验概率分类器
决策边界
决策误差
为未选择的类所对应的后验概率
最大似然估计
给定的N个训练样本都是符合iid条件的,从\(p(x|\theta)\)采样
联合概率密度:
目标函数:
线性判据
若判别模型\(f(x)\)是线性函数,则\(f(x)\)为线性判据,适合于二分类问题,决策边界为线性的,多分类问题下任意两类的决策边界也是线性。
优势
其优势在于计算量少,适用于训练样本少的情况。