简介
模型不合适,导致其无法对数据实现有效预测
训练数据 | 预测数据 | |
---|---|---|
欠拟合 | 不准确 | 不准确 |
过拟合 | 准确 | 不准确 |
好模型 | 准确 | 准确 |
原因
模型结构过于复杂(维度过高)
使用了过多属性,模型训练时包含了干扰信息
解决办法
- 简化模型结构(使用低阶模型, 比如线性模型)
- 数据预处理,保留主成分信息(数据PCA处理)
- 在模型训练时,增加正则项(regularization)
正则项
线性回归,最小化损失函数(Л):
\[J=\frac{1}{2 m} \sum_{i=1}^{m}\left(y_{i}^{\prime}-y_{i}\right)^{2}=\frac{1}{2 m} \sum_{i=1}^{m}\left(g\left(\theta, x_{i}\right)-y_{i}\right)^{2}
\]
正则化处理后的损失函数(Л:
\[J=\frac{1}{2 m} \sum_{i=1}^{m}\left(g\left(\theta, x_{i}\right)-y_{i}\right)^{2}+\frac{\lambda}{2 m} \sum_{j=1}^{n} \theta_{j}^{2}
\]
通过引入正则化项, \(\lambda\) 取值大的情况下,可约束 \(\theta\) 取值,有效控制各个属性数据 的影响。
---------------------------我的天空里没有太阳,总是黑夜,但并不暗,因为有东西代替了太阳。虽然没有太阳那么明亮,但对我来说已经足够。凭借着这份光,我便能把黑夜当成白天。我从来就没有太阳,所以不怕失去。
--------《白夜行》