机器学习重要概念

机器学习本身的缺陷

''All models are wrong, some useful.'' 我们在训练的时候是不可能看到全局的，就像是盲人摸象一样，但是我们又想要自己的模型能尽可能准确的描述出数据背后的真实规律,所以我们会需要:

更多的模型去展示全局的不同侧面，最终中和起来形成一个较为真实的模型。
大量的数据，数据越大其所展示的细节也就越复杂。当然我们也就需要更复杂的模型去解决。反过来对于复杂的模型我们又不得不用更大的数据去喂给他。

总之我们训练的模型永远不是真的模型。

设 $ϵ$ 为随机误差，是由数据本身的噪音带来的，是不可避免的。假定所要学习的模型是函数 $f$ ，在X条件下观察到的样本值为 $Y = f (X) + ϵ$ 。
假定训练出来的模型是 $\hat{f}$
观测数据是 $X$ 和 $Y$ ，通过训练的模型可以得到预测值 $\hat{f} (X)$ 。
由于训练模型的数据来自抽样X或者模型学习算法借助随机等因素，通常情况下得到的模型是不确定的。准是偏差小或者没有偏差，确是变化小或者没有变化。所以想到了几个值来描述模型的误差：

模型的偏差：模型的偏差指的是众多学习模型和真实模型之间的偏差。是通过学习拟合出来的结果的期望与真实值之间的差距。 $B i a s (X) = E [\hat{f} (X)] - f (X)$
模型的方差：指的是模型与模型之间的差异。表现的是通过学习拟合出来的结果自身的不稳定性。 $V a r (X) = E [(\hat{f} (X) - E [\hat{f} (X)])^{2}]$
一般来说模型预测的错误来源于偏差、方差和随机误差。 $E r r (x) = E [(Y - \hat{f} (X))^{2}] = (E [\hat{f} (X)] - f (X))^{2} + E [(\hat{f} (X) - E [\hat{f} (X)])^{2}] + δ_{ϵ}^{2}$ 换句话说模型预测的错误平方期望为偏差的平方加上方差再加上随机误差。在这三项里边，随机误差是无法消除的，其他两项都可以通过模型的选择与调参来适当控制的。

过拟合：模型的复杂度太高，导致模型的学习能力太强，泛化能力不足，即模型过于灵活。往往是由于模型把个别极端的噪音数据也当成正确数据学习并且纳入学习模型成为标准在以后的识别中被使用，或者是模型在数据没有覆盖的地方随意发挥的结果。在过拟合的情况下往往训练准确度远高于测试准确度。
欠拟合：模型的复杂度太低，模型的学习和表达能力不足，无法学习表述数据相对复杂关系。泛化能力相对较高。
根据奥卡姆剃刀原则我们不应该在一开始选择复杂的模型，我们应该首先选择简单的模型，在简单模型无法解释的地方再去纳入新的元素，创造更加复杂的模型。

对于过拟合的模型，需要降低其复杂度

偏差的计算需要真实值，所以在现实中很难计算机模型的偏差与方差。所以只能通过训练数据和测试数据的表现来综合判断模型的状态。

从训练数据来讲，随着模型复杂度的增加，误差会越来越小。
从测试数据来讲，随着模型复杂度的增加，误差首先会减少，但是增加到一定程度就会出现噪音数据被学习了或者模型开始自我发挥了导致的过拟合，这样的话，误差又会继续增大。
所以可以得出下边的四条规律：

posted @ 2022-10-22 21:22 Emi-lia 阅读(56) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型，支持深度思考和联网搜索！
· 使用C#创建一个MCP客户端
· ollama系列1：轻松3步本地部署deepseek，普通电脑可用
· 基于 Docker 搭建 FRP 内网穿透开源项目（很简单哒）
· 按钮权限的设计及实现

昵称： Emi-lia
园龄： 4年5个月
粉丝： 3
关注： 7

2025年3月

日

一

二

三

四

五

六