过拟合与欠拟合的原因以及解决方案

作者：我执
链接：https://zhuanlan.zhihu.com/p/271727854
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

有哪些原因会导致过拟合？

数据层面

训练集和测试集的数据分布不一致
训练数据集太少，样本单一，模型无法从中学到泛化的规则
训练集中的噪音太多，导致模型过分记住了噪音特征

模型层面

模型过于复杂，换句话说就是模型把这些数据“死记硬背”了下来，而不是学到了泛化规则。

过拟合如何解决？

数据层面

增加数据的量，或者增加数据的多样性，让模型学到更有效的特征。

模型层面

降低模型的复杂度，把模型变得更简单。如决策树的剪枝算法、神经网络中的L2/L1正则化等。

训练层面

使用验证集，当验证集发生过拟合现象时及早停止模型。
在训练过程中使用正则化技术，如神经网络中的Dropout、L2、L1正则化等。

模型融合

把多个模型集成在一起，降低模型过拟合的风险，如Bagging方法。

有哪些原因会导致欠拟合？

欠拟合一般是模型表达能力不够或者说数据有问题，导致无法从数据中学到有效的特征与规则。
数据层面

数据特征表达能力不强或者现有特征与标签之间的相关性不强。

模型层面

假设的模型太简单，导致无论怎么学习都无法学到有效的信息，即模型“先天不足”。
模型合适，但是没有训练好，即模型还没有训练到收敛的情况。

解决欠拟合的常见方法有哪些？

添加新的数据特征
增加模型复杂度，假设一个更复杂的空间
减小正则化系数
增加模型训练时间，直到模型收敛为止

posted @ 2021-09-15 22:16 你的雷哥阅读(779) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 25岁的心里话
· 基于 Docker 搭建 FRP 内网穿透开源项目（很简单哒）
· 闲置电脑爆改个人服务器（超详细） #公网映射 #Vmware虚拟网络编辑器
· 一起来玩mcp_server_sqlite，让AI帮你做增删改查！！
· 零经验选手，Compose 一天开发一款小游戏！

历史上的今天：
2018-09-15 python读写xlsx

公告

向优秀的人看齐

--------------------------------------

时钟canvas

--------------------------------------

曲名 - 歌手名

00:00 / 00:00

An audio error has occurred.

1 曲名歌手名

昵称：你的雷哥
园龄： 6年11个月
粉丝： 136
关注： 9

+加关注

2025年3月

日

一

二

三

四

五

六

你的雷哥

过拟合与欠拟合的原因以及解决方案

有哪些原因会导致过拟合？

过拟合如何解决？

有哪些原因会导致欠拟合？

解决欠拟合的常见方法有哪些？

公告

搜索

常用链接

最新随笔

积分与排名

随笔档案

相册

js链接

阅读排行榜

推荐排行榜