划分出测试集的三种方法

一. 单选题(共2题,40分)

1. (单选题)在评价模型的性能时,一般是更希望算法模型的()

  • A. 训练误差小
  • B. 测试误差小
  • C. 泛化误差小
 

2. (单选题)算法模型“过拟合”会发生的现象有()

  • A. 训练误差很小,泛化性能差
  • B. 测试误差很大,泛化性能强
  • C. 训练误差很大,泛化性能强
  • D. 测试误差很小,泛化性能强
答案: A:训练误差很小,泛化性能差;
 

二. 简答题(共1题,20分)

3. (简答题)简述划分出测试集的三种方法留出法、交叉验证法和自助法的优劣。

留出法的优劣

‌优点‌:

操作简单,不需要复杂的划分过程。

可以直接利用全部数据用于训练和测试,数据利用率高。

‌缺点‌:

结果的稳定性较差,因为单次划分可能导致训练集和测试集的数据分布不一致,引入偏差。

需要多次随机划分并取平均值来提高结果的可靠性。

交叉验证法的优劣

‌优点‌:

结果稳定性好,通过多次划分和测试,可以减少过拟合的风险。

适用于小样本情况,样本利用率高。

‌缺点‌:

计算开销较大,需要多次划分和测试,计算复杂度高。

自助法的优劣

‌优点‌:

样本利用率高,可以通过有放回采样获得训练集。

适用于小样本情况,可以充分利用所有样本。

‌缺点‌:

初始数据集中的样本会有36.8%未出现在采样数据集中,导致部分样本无法使用。

三. 多选题(共1题,20分)

4. (多选题)评估模型时,划分测试集的原则有()

  • A. 测试集应该尽可能与训练集互斥
  • B. 训练集和测试集的划分要尽可能保持数据分布一致(分层采样)
  • C. 一般采用多次重复试验
  • D. 以上都不对
: ABC:测试集应该尽可能与训练集互斥; 训练集和测试集的划分要尽可能保持数据分布一致(分层采样); 一般采用多次重复试验;
 

四. 填空题(共1题,20分)

5. (填空题)十折交叉验证法中把数据集分成()份,()份作为测试集,剩余的()作为训练集,需要把()次的过程测试结果平均作为最终的测试结果。

(1) 10
(2) 1
(3) 9
(4) 10
posted @   涨涨涨张  阅读(19)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· 三行代码完成国际化适配,妙~啊~
· .NET Core 中如何实现缓存的预热?
· 如何调用 DeepSeek 的自然语言处理 API 接口并集成到在线客服系统
点击右上角即可分享
微信分享提示