机器学习笔记第二章：模型评估与选择

评估方法

留出法：将部分的样本留出，并用于对模型性能的测试。
交叉验证法：将数据集D划分成k个大小相似的互斥子集，然后留下一个进行测试，其他进行训练。
自助法：采用有放回取样的方式构成一个训练集。

自助法在数据集较小、难以有效划分训练/测试集时很有用;此外，自助法能从初始数据集中产生多个不同的训练集，这对集成学习等方法有很大的好处.然而，自助法产生的数据集改变了初始数据集的分布，这会引入估计偏差.因此，在初始数据量足够时，留出法和交叉验证法更常用一些.

查准率P和查全率R，

查准率：预测为正例的结果中，预测对的比重。
查全率：正例中被预测对的比重。
文中说了，P和R是一对矛盾的度量，前提是这个模型不变的情况下。

ROC曲线与AUC
ROC曲线有两个指标：真正例率TPR，假正例率FPR

代价敏感错误率与代价曲线
在预测分类中，对于不同的类别预测错误所产生的代价可能是不同的，因此需要设置一定的系数来反映出来。

偏差-方差分解可以解释学习算法泛化性能的一种重要工具。

泛化性能是由学习算法的能力、数据的充分性以及学习任务本身的难度所共同决定的。

偏差与方法是有冲突的，被称为“偏差-方差窘境”

posted @ 2022-09-12 21:56 ALKING1001 阅读(41) 评论(0) 编辑收藏举报

刷新页面返回顶部