划分出测试集的三种方法

一. 单选题（共2题，40分）

1. (单选题)在评价模型的性能时，一般是更希望算法模型的（）

A. 训练误差小
B. 测试误差小
C. 泛化误差小

2. (单选题)算法模型“过拟合”会发生的现象有（）

A. 训练误差很小，泛化性能差
B. 测试误差很大，泛化性能强
C. 训练误差很大，泛化性能强
D. 测试误差很小，泛化性能强

答案: A:训练误差很小，泛化性能差;

二. 简答题（共1题，20分）

3. (简答题)简述划分出测试集的三种方法留出法、交叉验证法和自助法的优劣。

留出法的优劣

‌优点‌：

操作简单，不需要复杂的划分过程。

可以直接利用全部数据用于训练和测试，数据利用率高。

‌缺点‌：

结果的稳定性较差，因为单次划分可能导致训练集和测试集的数据分布不一致，引入偏差。

需要多次随机划分并取平均值来提高结果的可靠性。

交叉验证法的优劣

‌优点‌：

结果稳定性好，通过多次划分和测试，可以减少过拟合的风险。

适用于小样本情况，样本利用率高。

‌缺点‌：

计算开销较大，需要多次划分和测试，计算复杂度高。

自助法的优劣

‌优点‌：

样本利用率高，可以通过有放回采样获得训练集。

适用于小样本情况，可以充分利用所有样本。

‌缺点‌：

初始数据集中的样本会有36.8%未出现在采样数据集中，导致部分样本无法使用。

三. 多选题（共1题，20分）

4. (多选题)评估模型时，划分测试集的原则有（）

A. 测试集应该尽可能与训练集互斥
B. 训练集和测试集的划分要尽可能保持数据分布一致（分层采样）
C. 一般采用多次重复试验
D. 以上都不对

: ABC:测试集应该尽可能与训练集互斥; 训练集和测试集的划分要尽可能保持数据分布一致（分层采样）; 一般采用多次重复试验;

四. 填空题（共1题，20分）

5. (填空题)十折交叉验证法中把数据集分成（）份，（）份作为测试集，剩余的（）作为训练集，需要把（）次的过程测试结果平均作为最终的测试结果。

(1) 10

(2) 1

(3) 9

(4) 10

posted @ 2024-09-30 08:52 涨涨涨张阅读(19) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 12.12

· 12.19

· 每日总结16

· 训练集验证集测试集

· 训练集、验证集和测试集区别

阅读排行：
· TypeScript + Deepseek 打造卜卦网站：技术与玄学的结合
· Manus的开源复刻OpenManus初探
· 三行代码完成国际化适配，妙~啊~
· .NET Core 中如何实现缓存的预热？
· 如何调用 DeepSeek 的自然语言处理 API 接口并集成到在线客服系统

公告

昵称：涨涨涨张
园龄： 1年11个月
粉丝： 0
关注： 6

+加关注

2025年3月

日

一

二

三

四

五

六

zh-ang-zhang

划分出测试集的三种方法

一. 单选题（共2题，40分）

1. (单选题)在评价模型的性能时，一般是更希望算法模型的（）

2. (单选题)算法模型“过拟合”会发生的现象有（）

二. 简答题（共1题，20分）

3. (简答题)简述划分出测试集的三种方法留出法、交叉验证法和自助法的优劣。

三. 多选题（共1题，20分）

4. (多选题)评估模型时，划分测试集的原则有（）

四. 填空题（共1题，20分）

5. (填空题)十折交叉验证法中把数据集分成（）份，（）份作为测试集，剩余的（）作为训练集，需要把（）次的过程测试结果平均作为最终的测试结果。

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜