Bias, Variance and the Trade-off

偏差,方差以及两者权衡

偏差是由模型简化的假设,使目标函数更容易学习。

一般来说,参数化算法有很高的偏差,使它们学习起来更快,更容易理解,但通常不那么灵活。反过来,它们在复杂问题上的预测性能更低,无法满足算法偏差的简化假设。

Decision trees是低偏差算法的一个例子,而linear regression则是高偏差算法的一个例子。

如果使用不同的训练数据,则目标函数的估计值会发生变化。通过机器学习算法对训练数据估计目标函数,所以我们希望算法有一定的方差,而不是零方差。

K-Nearest Neighbors algorithm是高方差算法的一个例子,而Linear Discriminant Analysis则是一个低方差算法的例子。

任何预测建模机器学习算法的目标都是实现低偏差和低方差。同时,该算法也要能实现良好的预测性能。机器学习算法的参数化通常是一场平衡偏差和方差的战斗。

  • 增加偏差会减少方差。
  • 增加方差会降低偏差。

 

参考【机器学习模型在生产中表现不佳?问题可能出在这 9 个地方】:

偏差方差问题 是一种试图使两种误差源同时达到最小化的冲突,这两个误差源使得监督机器学习算法不能在训练集之外进行泛化。

高偏差和低方差的模型对目标函数有更多的形式假设,而高方差和低偏差的模型对训练数据集进行过度学习。

低偏差高方差 机器算法的例子:决策树、k- 最近邻和支持向量机。

高偏差低方差 机器学习算法的例子:线性回归、线性判别分析和逻辑回归。

为了得到最佳拟合模型,应该对模型的参数进行调整,使其在生产中表现最佳。

posted @ 2018-05-08 09:47  Skye_Zhao  阅读(163)  评论(0编辑  收藏  举报