GBRT的残差为什么用负梯度代替?

GBRT的残差为什么用负梯度代替?

看了之前的不少回答感觉都没答到点子上,题主问的是为什么前向分步时不直接拟合残差

简单来讲就一句话,为了可以扩展到更复杂的损失函数中

这时候你可能就有疑问了,难道不是所有的损失函数都在 [公式] 时最小吗?

那可能你忘了正则项这一回事,如果只是经验风险最小化的话非常容易过拟合,所以一个合理的办法就是在每个基模型中加入正则项,所以在有正则项的情况下就不再是 [公式] 时损失函数最小了,所以我们需要计算损失函数的梯度,而不能直接使用分模型来拟合残差。

posted @ 2020-05-16 12:01  别再闹了  阅读(217)  评论(0编辑  收藏  举报