GBRT的残差为什么用负梯度代替?
GBRT的残差为什么用负梯度代替?
看了之前的不少回答感觉都没答到点子上,题主问的是为什么前向分步时不直接拟合残差?
简单来讲就一句话,为了可以扩展到更复杂的损失函数中。
这时候你可能就有疑问了,难道不是所有的损失函数都在 时最小吗?
那可能你忘了正则项这一回事,如果只是经验风险最小化的话非常容易过拟合,所以一个合理的办法就是在每个基模型中加入正则项,所以在有正则项的情况下就不再是 时损失函数最小了,所以我们需要计算损失函数的梯度,而不能直接使用分模型来拟合残差。