简介

模型不合适,导致其无法对数据实现有效预测

训练数据 预测数据
欠拟合 不准确 不准确
过拟合 准确 不准确
好模型 准确 准确

原因

模型结构过于复杂(维度过高)
使用了过多属性,模型训练时包含了干扰信息

解决办法

  1. 简化模型结构(使用低阶模型, 比如线性模型)
  2. 数据预处理,保留主成分信息(数据PCA处理)
  3. 在模型训练时,增加正则项(regularization)

正则项

线性回归,最小化损失函数(Л):

\[J=\frac{1}{2 m} \sum_{i=1}^{m}\left(y_{i}^{\prime}-y_{i}\right)^{2}=\frac{1}{2 m} \sum_{i=1}^{m}\left(g\left(\theta, x_{i}\right)-y_{i}\right)^{2} \]

正则化处理后的损失函数(Л:

\[J=\frac{1}{2 m} \sum_{i=1}^{m}\left(g\left(\theta, x_{i}\right)-y_{i}\right)^{2}+\frac{\lambda}{2 m} \sum_{j=1}^{n} \theta_{j}^{2} \]

通过引入正则化项, \(\lambda\) 取值大的情况下,可约束 \(\theta\) 取值,有效控制各个属性数据 的影响。

posted on 2022-04-22 15:39  HDU李少帅  阅读(36)  评论(0编辑  收藏  举报