过拟合与欠拟合

过拟合:过分依赖训练数据

欠拟合:未能学习训练数据中的关系

高方差:模型根据训练数据显着变化

高偏差:对模型的假设不够导致忽略训练数据

过拟合和欠拟合导致测试集的泛化性差

1、过拟合:在训练集中表现的过于优越,导致在验证集和测试集中表现不佳。

主要原因:训练数据中存在噪音或训练数据太少。

根本原因:特征维度(参数)过多,导致拟合的函数完美的经过训练集,但是对新数据的预测结果较差。

常见原因:样本不足;噪音过大;模型假设条件不成立;参数太多;决策树模型对其生长没有合理限制;神经网络决策面不唯一,迭代次数多。

解决方法:神经网络模型中,可用权值衰减的方法,即每次迭代过程中以某个小因子降低多个权值;选取合适的停止训练标准;保留验证集;交叉验证;正则化

2、欠拟合:模型没有很好地捕捉到数据特征,不能够很好地拟合数据

解决方法:添加其他特征项(组合、泛化、相关性、上下文特征等);添加多项式特征;减少正则化参数

posted @ 2019-07-25 15:56  2048的渣渣  阅读(167)  评论(0编辑  收藏  举报