(180909)泛化及解决模型过拟合问题---Google机器学习速成课程笔记
泛化 (Generalization) 是什么
先解释什么是泛化。Generalization,一般化,泛化。就是把训练所得模型应用于新的样本数据进行预测的过程。
在模型的训练过程中,存在一种现象:模型与训练样本数据过于符合(匹配),但未必对于新的数据也有非常OJBK的预测性。这种现象称为 过拟合
过拟合
定义像上文所介绍的一样。课程中提到了垃圾邮件分类,和果树好坏分类的案例
如图所示,分类所示的曲线能够很完美的对当前训练样本集很好的划分(损失非常的小)。
但因为模型过于复杂对于新数据却过拟合
如何解决过拟合问题
先提一个基于经验和直觉的奥卡姆剃刀理论,模型越简单反而越好
总结课程的内容就是将数据样本分为两部分:训练集、测试集。如果通过训练集所得的模型能够很好的对测试集数据进行预测,那就认为不会存在过拟合现象
还有两个前提:训练集足够大;同一训练集不能重复使用
监督式机器学习有几条基本假设
- 从同一分布中随机抽取独立同分布样本 【独立同分布 ( i.i.d, Independent Identically Distributed)】
- 分布是平稳的,不会随时间改变而改变