随笔- 372 文章- 0 评论- 37 阅读- 75万

2.5偏差方差分解

自己开发了一个股票智能分析软件，功能很强大，需要的点击下面的链接获取：

https://www.cnblogs.com/bclshuai/p/11380657.html

1.1 偏差方差分解

拟合能力强的模型复杂度比较高，但是容易导致过拟合，泛化能力差。如果降低模型的复杂度，降低拟合能力，又会导致欠拟合。所以需要在过拟合和欠拟合之间找到一个平衡。这个很好理解，以多项式拟合为例，多项式的阶数越高，拟合的误差越小，但是如果用于计算拟合数据以外的数据，就会出现很大的偏差，泛化能力差。如果阶数越小，泛化能力很强。

在实际训练中，通过采样样本集进行训练，不同的样本集D上训练得到不同的模型参数f_D(x)。有个最优的模型参数，使得平方损失函数最小的模型f*(x)。

偏差：指样本训练值平均值与最优模型值之间的差距；衡量模型的拟合能力。

方差：指的是一个模型在多个训练样本集上的差异，反映为多个样本训练值之间的集中程度；如果越集中则方差越小。泛化能力越强，能够适应不同的样本集。

复杂度高的模型拟合能力强，容易过拟合，在训练集上偏差小，但是在验证集上偏差大。我们需要通过降低模型复杂度来增强泛化能力，使其在验证集上的偏差也能减小。如果模型在训练集上的偏差比较大，说明模型欠拟合，可以通过增加复杂度来提高拟合能力，减小偏差。以结构风险最小化为例，我们可以增大正则化系数降低模型的复杂度，增强泛化能力，减小过拟合引起的偏差．也可以减小正则化系数，提高拟合能力．因此，一个好的正则化系数需要在偏差和方差之间取得比较好的平衡．下图给出了机器学习模型的期望错误、偏差和方差随复杂度的变化情况，其中红色虚线表示最优模型．最优模型并不一定是偏差曲线和方差曲线的交点。