划分出测试集的三种方法
一. 单选题(共2题,40分)
1. (单选题)在评价模型的性能时,一般是更希望算法模型的()
- A. 训练误差小
- B. 测试误差小
- C. 泛化误差小
2. (单选题)算法模型“过拟合”会发生的现象有()
- A. 训练误差很小,泛化性能差
- B. 测试误差很大,泛化性能强
- C. 训练误差很大,泛化性能强
- D. 测试误差很小,泛化性能强
答案: A:训练误差很小,泛化性能差;
二. 简答题(共1题,20分)
3. (简答题)简述划分出测试集的三种方法留出法、交叉验证法和自助法的优劣。
-
留出法的优劣
优点:
操作简单,不需要复杂的划分过程。
可以直接利用全部数据用于训练和测试,数据利用率高。
缺点:
结果的稳定性较差,因为单次划分可能导致训练集和测试集的数据分布不一致,引入偏差。
需要多次随机划分并取平均值来提高结果的可靠性。
交叉验证法的优劣
优点:
结果稳定性好,通过多次划分和测试,可以减少过拟合的风险。
适用于小样本情况,样本利用率高。
缺点:
计算开销较大,需要多次划分和测试,计算复杂度高。
自助法的优劣
优点:
样本利用率高,可以通过有放回采样获得训练集。
适用于小样本情况,可以充分利用所有样本。
缺点:
初始数据集中的样本会有36.8%未出现在采样数据集中,导致部分样本无法使用。
三. 多选题(共1题,20分)
4. (多选题)评估模型时,划分测试集的原则有()
- A. 测试集应该尽可能与训练集互斥
- B. 训练集和测试集的划分要尽可能保持数据分布一致(分层采样)
- C. 一般采用多次重复试验
- D. 以上都不对
: ABC:测试集应该尽可能与训练集互斥; 训练集和测试集的划分要尽可能保持数据分布一致(分层采样); 一般采用多次重复试验;
四. 填空题(共1题,20分)
5. (填空题)十折交叉验证法中把数据集分成()份,()份作为测试集,剩余的()作为训练集,需要把()次的过程测试结果平均作为最终的测试结果。
- (1) 10
- (2) 1
- (3) 9
- (4) 10
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· 三行代码完成国际化适配,妙~啊~
· .NET Core 中如何实现缓存的预热?
· 如何调用 DeepSeek 的自然语言处理 API 接口并集成到在线客服系统