9.20
一. 单选题(共2题,40分)
1. (单选题)在评价模型的性能时,一般是更希望算法模型的()
- A. 训练误差小
- B. 测试误差小
- C. 泛化误差小
- D. 以上都是
我的答案: D:以上都是;
2. (单选题)算法模型“过拟合”会发生的现象有()
- A. 训练误差很小,泛化性能差
- B. 测试误差很大,泛化性能强
- C. 训练误差很大,泛化性能强
- D. 测试误差很小,泛化性能强
我的答案: A:训练误差很小,泛化性能差;
二. 简答题(共1题,20分)
3. (简答题)简述划分出测试集的三种方法留出法、交叉验证法和自助法的优劣。
- 我的答案:
-
留出法 优点实现简单,易于理解;快速,适合大型数据集;缺点:1结果不稳定,因为性能评估依赖于一次划分,存在偶然性; 2浪费数据,部分数据仅用于测试而不是训练;
交叉验证: 优点:1.提供更可靠的性能评估。通过多次训练和测试,结果通常更稳定而且具有代表性。2.更有效地利用数据,所有数据在多个实验中由于训练和测试。缺点:计算开销大;
自助法:优点:1.利用随机抽样,能够从有限的数据中生成许多训练集和测试集的组合,
2.适合小型数据集,能有效评估模型性能
缺点1.可能倒是哦训练集和测试集存在重叠,因为样本时有放回的抽样,这可能倒是模型评估的偏差;2.数据利用率较低。
三. 多选题(共1题,20分)
4. (多选题)评估模型时,划分测试集的原则有()
- A. 测试集应该尽可能与训练集互斥
- B. 训练集和测试集的划分要尽可能保持数据分布一致(分层采样)
- C. 一般采用多次重复试验
- D. 以上都不对
我的答案: AB:测试集应该尽可能与训练集互斥; 训练集和测试集的划分要尽可能保持数据分布一致(分层采样);
四. 填空题(共1题,20分)
5. (填空题)十折交叉验证法中把数据集分成()份,()份作为测试集,剩余的()作为训练集,需要把()次的过程测试结果平均作为最终的测试结果。
- 我的答案:
- (1) 10
- (2) 1
- (3) 9
- (4) 10