【机器学习】第2章 模型评估与选择
第2章:模型评估与选择
🔺过拟合和欠拟合以及相应的解决方案
过拟合:
学习器把训练样本学习的“太好”,将训练样本本身的特点 当做所有样本的一般性质,导致泛化性能下降
⭐优化目标加正则项
⭐early stop
欠拟合:
对训练样本的一般性质尚未学好
⭐决策树:拓展分支
⭐神经网络:增加训练轮数
过拟合:学习器把训练样本本身特点当做所有潜在样本都会具有的一般性质.
欠拟合:训练样本的一般性质尚未被学习器学好.
🔺评估方法:泛化性能
⭐留出法:
直接将数据集划分为两个互斥集合
训练/测试集划分要尽可能保持数据分布的一致性
一般若干次随机划分、重复实验取平均值
训练/测试样本比例:2:1~4:1
不受随机样本划分方式的影响
结果往往比较准确
当数据集比较大时,计算开销难以忍受
⭐交叉验证法:
将数据集分层采样划分为k个大小相似的互斥子集,每次用k-1个子集的并集作为训练集,余下的子集作为测试集,最终返回k个测试结果的均值,k最常用的取值是10.
⭐自助法:
以自助采样法为基础,对数据集D 有放回采样 m 次得到训练集D’,用D\D’ 做测试集。
m次有放回重复抽样
实际模型与预期模型都使用 m 个训练样本
约有1/3的样本没在训练集中出现
从初始数据集中产生多个不同的训练集,对集成学习有很大的好处
自助法在数据集较小、难以有效划分训练/测试集时很有用;
由于改变了数据集分布可能引入估计偏差,在数据量足够时,留出法和交叉验证法更常用。
性能度量
性能度量是衡量模型泛化能力的评价标准,反映了任务需求;使用不同的性能指标往往会导致不同的评判结果

对于分类任务,错误率和精度是最常用的两种性能度量:
错误率:分错样本占样本总数的比例

精度:分对样本占样本总数的比率

查准率-查全率:信息检索、Web搜索等场景中经常需要衡量正例被预测出来的比率或者预测出来的正例中正确的比率,此时查准率和查全率比错误率和精度更适合。
统计真实标记和预测结果的组合可以得到“混淆矩阵”

查准率

查全率

查准率-查全率曲线,简称“P-R曲线”

平衡点是曲线上“查准率=查全率”时的取值,可用来用于度量P-R曲线有交叉的分类器性能高低
比P-R曲线平衡点更用常用的是F1度量:


性能度量-ROC曲线绘制
ROC曲线:类似P-R曲线,根据学习器的预测结果对样例排序,并逐个作为正例进行预测,以“假正例率”为横轴,“真正例率”为纵轴可得到ROC曲线,全称“受试者工作特征”.
计算公式:
真正例率 TPR = (真实正例&预判正例)数/真实正例数
TPR = TP/(TP+FN) 正确
假正例率 TPR = (真实反例&预判正例)数/真实反例数
FPR = FP/(TN+FP) 错误

学习器的优劣:若某个学习器的ROC曲线被另一个学习器的曲线“包住”,则后者性能优于前者;
AUC值:否则如果曲线交叉,可以根据ROC曲线下面积大小进行比较,也即AUC值.

……
🔺偏差与方差-性能解释
通过实验可以估计学习算法的泛化性能,而“偏差-方差分解”可以用来帮助解释泛化性能。偏差-方差分解试图对学习算法期望的泛华错误率进行拆解。



又由假设中噪声期望为0,可得

于是
⭐也即泛化误差可分解为偏差、方差与噪声之和。

一般来说,偏差与方差是有冲突的,称为偏差-方差窘境。
如右图所示,假如我们能控制算法的训练程度:
