GBRT的残差为什么用负梯度代替？

GBRT的残差为什么用负梯度代替？

看了之前的不少回答感觉都没答到点子上，题主问的是为什么前向分步时不直接拟合残差？

简单来讲就一句话，为了可以扩展到更复杂的损失函数中。

这时候你可能就有疑问了，难道不是所有的损失函数都在时最小吗？

那可能你忘了正则项这一回事，如果只是经验风险最小化的话非常容易过拟合，所以一个合理的办法就是在每个基模型中加入正则项，所以在有正则项的情况下就不再是时损失函数最小了，所以我们需要计算损失函数的梯度，而不能直接使用分模型来拟合残差。

posted @ 2020-05-16 12:01 别再闹了阅读(280) 评论(0) 收藏举报

刷新页面返回顶部