第二次作业
写在前面的学习心得
这门课与数学关系特别密切,很多时候要用到之前的内容。可惜的是自己之前学过的知识很多都忘了,学到的时候心里总会生出一句“天啊好熟悉”,然后拼命回忆之前的内容,然后后悔自己为什么不好好复习。总之,要学好这门课真的不容易。(特别是上完这门课过了些日子,感觉又忘了很多…)
学习笔记
第一章
模式识别
- 根据任务,模式识别可以分为分类和回归两种形式。
- 模式识别:根据已有知识的表达,针对待识别模式,判别决策其所属的类别或者预测其对应的回归值。
- 模式识别系统,由数据获取、预处理、特征提取、分类决策和分类器设计5部分组成。
- 预处理:对获取信号进行规范化等各种处理。
- 特征提取:将识别样本构造成便于比较、分析的描述量及特征向量。
- 分类决策:对样本特征分量按判别函数的计算结果进行分类
- 分类器设计:由训练过程将训练样本提供的信息变为判别式无的判别函数
机器学习
- 监督式学习:训练样本给定真值
- 监督式学习:训练样本不给真值,难度较大,用于聚类、图像分割等
- 半监督式学习:仅给定一部分训练样本的真值,用于网络流数据等
- 强化学习:真值滞后反馈,适用于需要累积多次决策才知道结果好坏的任务,应用:棋类游戏
模型学习效果的评估
-
泛化能力:训练集上训练的模型在多大程度上能够对新的实例预测出正确输出称为泛化。
-
对泛化能力存在影响的因素:
训练样本存在着问题:
- 训练样本稀疏,难以完整表达样本的真实分布
- 训练样本采样过程不均匀
- 一些训练样本可能带有噪声
-
泛化能力低的表现
过拟合:模型训练阶段表现得很好,但是在测试阶段表现很差。
-
提高泛化能力
-
选择复杂度合适的模型:模型选择
目标函数中带有需要人为确定的参数,这些参数称为超参数。如多项式的阶数和训练样本的个数。
在固定样本个数的情况下通过选择合适的阶数使训练精度和测试精度都达到较优值
-
正则化:在目标函数中加入正则项
在目标函数中加入关于参数的正则项,其中也包含超参数:正则系数λ
通过调节正则系数,降低过拟合的程度
-
-
量化模型的评估性能
留出法
随机划分:将数据集随机划分为训练集和测试集,利用训练集训练模型,在测试集上评估模型量化指标
取统计值:将上诉过程重复若干次,取量化指标的平均值作为最终的性能量化评估结果。
K折交叉验证
随机划分:将数据集随机划分为训练集和测试集,利用训练集训练模型,在测试集上评估模型量化指标
取统计值:将上诉过程重复若干次,取量化指标的平均值作为最终的性能量化评估结果。
第二、三章
分类器
MED分类器:
- 基于欧式距离的分类器,欧式距离 d(x1,x2)=(x2−x1)T∗(x2−x1)
- 判别方法: (x−μ1)T(x−μ1)<(x−μ2)T(x−μ2)?C1类:C2类
- 受特征的量纲、分布不同的影响,易导致分类错误,一般不直接用欧式距离进行分类
MICD分类器:
- 基于马氏距离的分类器,马氏距离 d(x1,x2)=(x2−x1)TΣ−1x(x2−x1)
- 判别方法:(x−μ1)TΣ−1x(x−μ1)<(x−μ2)TΣ−1x(x−μ2)?C1类:C2类
- 对特征向量进行白化,消除特征间的相关性并使特征具有相同方差,从而使其不受量纲和分布的影响,提高分类准确度
- 但在距离相等时,倾向于归于方差较大的类
MAP分类器:
- 基于后验概率的分类器,后验概率 p(Ci|x)=p(x|Ci)p(Ci)/p(x)
- 判别方法:(x−μ1)TΣ−1x(x−μ1)<(x−μ2)TΣ−1x(x−μ2)?C1类:C2类
- 判选择后验概率最大的类作为判别结果,即最小化概率误差
贝叶斯分类器:
-
在MAP分类器的基础上,引入决策风险的概念,即对每种决策失误赋予权值
-
决策风险
\[R(α_i|x)=\sum_{j}λ_{ij}p(C_j|x)R(α_i|x)=\sum_{j}λ_{ij}p(C_j|x) \],其中λij表示将真值类别属于j类的样本归于i类的决策的损失
-
对每个样本均决策风险最小的类别,可使损失期望之和最小化