过拟合与欠拟合

过拟合：过分依赖训练数据

欠拟合：未能学习训练数据中的关系

高方差：模型根据训练数据显着变化

高偏差：对模型的假设不够导致忽略训练数据

过拟合和欠拟合导致测试集的泛化性差

1、过拟合：在训练集中表现的过于优越，导致在验证集和测试集中表现不佳。

主要原因：训练数据中存在噪音或训练数据太少。

根本原因：特征维度（参数）过多，导致拟合的函数完美的经过训练集，但是对新数据的预测结果较差。

常见原因：样本不足；噪音过大；模型假设条件不成立；参数太多；决策树模型对其生长没有合理限制；神经网络决策面不唯一，迭代次数多。

解决方法：神经网络模型中，可用权值衰减的方法，即每次迭代过程中以某个小因子降低多个权值；选取合适的停止训练标准；保留验证集；交叉验证；正则化

2、欠拟合：模型没有很好地捕捉到数据特征，不能够很好地拟合数据

解决方法：添加其他特征项（组合、泛化、相关性、上下文特征等）；添加多项式特征；减少正则化参数

posted @ 2019-07-25 15:56 2048的渣渣阅读(211) 评论(0) 收藏举报

刷新页面返回顶部

2048的渣渣