机器学习中的Bias(偏差),Error(误差),和Variance(方差)有什么区别和联系?

前几天搜狗的一道笔试题,大意是在随机森林上增加一棵树,variance和bias如何变化呢?

参考知乎上的讨论:https://www.zhihu.com/question/27068705

另外可参考林轩田老师在机器学习技法的《Blending and Bagging》中的讲解:

 

综上,bias反应的是模型在样本上的值与真实值之间的误差,反应的是模型的准确度。对于blending,它反应的是模型越复杂,它的bias就越小;

对于cross-validation,当训练越充分,bias就越小。按上面的理解,bias应是Ein,但林老师给出的是Eout,不知道该如何理解呢?

        variance反应的是模型的稳定性。对于blending,从上图来看,它反应的是每个g与最后模型的差异性,可以想像,当g较少时,variance也

会越小;从cross-validation来说,variance在不同训练集上的训练结果,训练集越少,差异也越少。

       回到最开始的问题,增加一棵树,相当于增加了模型的复杂度,bias会减小,同时增加了相互之间的差异,variance增加。

posted @ 2016-09-13 21:00  牧马人夏峥  阅读(1509)  评论(0编辑  收藏  举报