吴恩达机器学习笔记35-诊断偏差和方差(Diagnosing Bias vs. Variance)

  当你运行一个学习算法时,如果这个算法的表现不理想,那么多半是出现两种情况:
要么是偏差比较大,要么是方差比较大。换句话说,出现的情况要么是欠拟合,要么是过拟
合问题。那么这两种情况,哪个和偏差有关,哪个和方差有关,或者是不是和两个都有关?
搞清楚这一点非常重要,因为能判断出现的情况是这两种情况中的哪一种。其实是一个很有
效的指示器,指引着可以改进算法的最有效的方法和途径,高偏差和高方差的问题基本上来说是欠拟合和过拟合的问题。

我们通常会通过将训练集和交叉验证集的代价函数误差与多项式的次数绘制在同一张
图表上来帮助分析:

  对于训练集,当 𝑑 较小时,模型拟合程度更低,误差较大;随着 𝑑 的增长,拟合程
度提高,误差减小。
  对于交叉验证集,当 𝑑 较小时,模型拟合程度低,误差较大;但是随着 𝑑 的增长,
误差呈现先减小后增大的趋势,转折点是我们的模型开始过拟合训练数据集的时候。
如果我们的交叉验证集误差较大,我们如何判断是方差还是偏差呢?根据上面的图表,
我们知道:

训练集误差和交叉验证集误差近似时:偏差/欠拟合
交叉验证集误差远大于训练集误差时:方差/过拟合

posted @ 2019-03-02 01:38  NeoML  阅读(386)  评论(0编辑  收藏  举报