机器学习笔记 第二章:模型评估与选择

评估方法

留出法:将部分的样本留出,并用于对模型性能的测试。
交叉验证法:将数据集D划分成k个大小相似的互斥子集,然后留下一个进行测试,其他进行训练。
自助法:采用有放回取样的方式构成一个训练集。

自助法在数据集较小、难以有效划分训练/测试集时很有用;此外,自助法能从初始数据集中产生多个不同的训练集,这对集成学习等方法有很大的好处.然而,自助法产生的数据集改变了初始数据集的分布,这会引入估计偏差.因此,在初始数据量足够时,留出法和交叉验证法更常用一些.

性能度量

image
查准率P和查全率R
image

查准率:预测为正例的结果中,预测对的比重。
查全率:正例中被预测对的比重。
文中说了,P和R是一对矛盾的度量,前提是这个模型不变的情况下。

ROC曲线与AUC
ROC曲线有两个指标:真正例率TPR,假正例率FPR
image

image

代价敏感错误率与代价曲线
在预测分类中,对于不同的类别预测错误所产生的代价可能是不同的,因此需要设置一定的系数来反映出来。

偏差与方差

偏差-方差分解 可以解释学习算法泛化性能的一种重要工具。
image

泛化性能是由学习算法的能力、数据的充分性以及学习任务本身的难度所共同决定的。

偏差与方法是有冲突的,被称为“偏差-方差窘境”

posted @ 2022-09-12 21:56  ALKING1001  阅读(41)  评论(0编辑  收藏  举报