1-bias and variance
1、背景
机器学习的error来自2类,一种是bias,一种是variance;优化的时候诊断error来自哪,就可以针对性进行优化
如下图: error来自bias时候,表示打靶的点的均值离靶心的距离; error来自variable表示打靶的点分布在均值的周围的离散程度。
high bias中心离靶心远,数据比较集中。hign variance 中心离靶心紧,但是数据分散。当为hign bias时候,他的model表示的function set没有包含target靶心(正真的function);当hign variance,他表示的model包含target,但是可能找不到真正的target,原因是给的data不够。
如下图,从左到右,由bias造成的error逐渐变大,但是由variance造成的error逐渐上升。
如下图,左侧是简单的模型,右边是复杂的模型;简单的模型受数据的影响小,分散比较紧。
2、优化方法
2.1 确认是bias还是variable造成的error
1、来自bias
2、来自 variables