过拟合与欠拟合
过拟合:过分依赖训练数据
欠拟合:未能学习训练数据中的关系
高方差:模型根据训练数据显着变化
高偏差:对模型的假设不够导致忽略训练数据
过拟合和欠拟合导致测试集的泛化性差
1、过拟合:在训练集中表现的过于优越,导致在验证集和测试集中表现不佳。
主要原因:训练数据中存在噪音或训练数据太少。
根本原因:特征维度(参数)过多,导致拟合的函数完美的经过训练集,但是对新数据的预测结果较差。
常见原因:样本不足;噪音过大;模型假设条件不成立;参数太多;决策树模型对其生长没有合理限制;神经网络决策面不唯一,迭代次数多。
解决方法:神经网络模型中,可用权值衰减的方法,即每次迭代过程中以某个小因子降低多个权值;选取合适的停止训练标准;保留验证集;交叉验证;正则化
2、欠拟合:模型没有很好地捕捉到数据特征,不能够很好地拟合数据
解决方法:添加其他特征项(组合、泛化、相关性、上下文特征等);添加多项式特征;减少正则化参数