(180909)泛化及解决模型过拟合问题---Google机器学习速成课程笔记

泛化 (Generalization) 是什么

先解释什么是泛化。Generalization,一般化,泛化。就是把训练所得模型应用于新的样本数据进行预测的过程。

在模型的训练过程中,存在一种现象:模型与训练样本数据过于符合(匹配),但未必对于新的数据也有非常OJBK的预测性。这种现象称为 过拟合

过拟合

定义像上文所介绍的一样。课程中提到了垃圾邮件分类,和果树好坏分类的案例

这里写图片描述

如图所示,分类所示的曲线能够很完美的对当前训练样本集很好的划分(损失非常的小)。

这里写图片描述

但因为模型过于复杂对于新数据却过拟合

如何解决过拟合问题

  • 先提一个基于经验和直觉的奥卡姆剃刀理论,模型越简单反而越好

  • 总结课程的内容就是将数据样本分为两部分:训练集测试集。如果通过训练集所得的模型能够很好的对测试集数据进行预测,那就认为不会存在过拟合现象

    还有两个前提:训练集足够大;同一训练集不能重复使用

  • 监督式机器学习有几条基本假设

    • 同一分布随机抽取独立同分布样本 【独立同分布 ( i.i.d, Independent Identically Distributed)】
    • 分布是平稳的,不会随时间改变而改变
posted @ 2018-09-09 21:08  不知道的痛  阅读(188)  评论(0编辑  收藏  举报