《机器学习基石》---三个有用的机器学习原则
1 奥卡姆剃刀原则
使用模型时尽量使用简单的模型。从简单的模型开始做起。
2 避免抽样偏差
所谓抽样偏差,是指训练数据集和测试数据集不是由同一个分布产生的。
比如验证集是从训练集中随机取一部分得到的,但是测试集却是时间轴靠后的数据,这样即使在验证集上做的很好,测试的时候却可能没那么好。
VC理论中,一个前提就是训练集和测试集要来源于同一个分布。因此抽样偏差将导致VC理论失效:
因此我们实际中要尽量使我们的训练集与测试集的分布接近。
3 避免数据窥探