过拟合VS欠拟合、偏差VS方差
1. 过拟合 欠拟合
过拟合:在训练集(training set)上表现好,但是在测试集上效果差,也就是说在已知的数据集合中非常好,但是在添加一些新的数据进来训练效果就会差很多,造成这样的原因是考虑影响因素太多,超出自变量的维度过于多了;
欠拟合:模型拟合不够,在训练集(training set)上表现效果差,没有充分的利用数据,预测的准确度低;
高阶多项式回归的过拟合与欠拟合
逻辑回归的过拟合与欠拟合
2. 偏差 方差
偏差:首先error=bias+variance;bias反映的是模型在样本上的输出与真实值之间的误差,即模型本身的精确度;
方差:Variance反映的是模型每一次输出结果与模型输出期望之间的误差,即模型的稳定性;
- 低偏差低方差时,是我们所追求的效果,此时预测值正中靶心(最接近真实值),且比较集中(方差小)。
- 低偏差高方差时,预测值基本落在真实值周围,但很分散,此时方差较大,说明模型的稳定性不够好。
- 高偏差低方差时,预测值与真实值有较大距离,但此时值很集中,方差小;模型的稳定性较好,但预测准确率不高,处于"一如既往地预测不准"的状态。
- 高偏差高方差时,是我们最不想看到的结果,此时模型不仅预测不准确,而且还不稳定,每次预测的值都差别比较大。