梯度提升树:负梯度和残差
1 提升树模型
提升树是以分类树和回归树为基本分类器的提升方法。提升树被认为是统计学习中性能最好的方法之一。
提升方法实际采用加法模型(即基函数的线性组合)与前向分布算法。以决策树为基函数的提升方法称为提升树(boosting tree)。
- 提升树模型可以表示为决策树的加法模型
其中, \(T(x; \Theta_m)\) 表示决策树;\(\Theta_m\) 为决策树的参数;\(M\) 为树的个数。
- 提升树算法采用前向分布算法
首先确定初始提升树 \(f_0(x) = 0\) ,第 \(m\) 步的模型是
其中,\(f_{m-1}(x)\) 为当前模型,通过经验风险极小化确定下一棵决策树的参数 \(\Theta_m\) ,
不同问题的梯度提升树学习算法,其主要区别在于使用的损失函数不同。
-
用平方误差损失函数的回归问题;
-
用指数损失函数的分类问题;
-
用一般损失函数的一般决策问题。
2 负梯度和残差
梯度提升模型的求解过程是梯度下降在函数空间的优化过程。
残差是负梯度在损失函数为平方误差时的特殊情况。
- 我们希望找到一个 \(f(x)\) 使得 \(L(y, f(x))\) 最小,当前我们得到 \(f_{m-1}(x)\),如果想得到更优的 \(f(x)\),根据梯度下降法进行迭代,\(f(x)\) 就得沿着使损失函数 \(L\) 减小的方向变化。
其中,\(\eta\) 为学习率,\(\frac{\partial{L(y, f_{m-1}(x))}}{\partial{f_{m-1}(x)}}\) 为损失函数 \(L\) 对未知函数的偏导 \(\frac{\partial{L(y, f(x))}}{\partial{f(x)}}\) 在 \(f_{m-1}(x)\) 处的值。
同时,最新学习器是由当前学习器 \(f_{m-1}(x)\) 与本次要生成的回归树 \(T_m(x)\) 相加得到
因此,为了让损失函数减小,根据式(1)和(2)知,可以取
因此,我们可以使用损失函数对 \(f(x)\) 的负梯度 $$- \frac{\partial{L(y, f_{m-1}(x))}}{\partial{f_{m-1}(x)}}$$ 来拟合新的回归树 \(T_m(x)\).
- 当损失函数为平方损失时,即
损失函数的负梯度为
这里, \(y - f_{m-1}(x)\) 是当前模型拟合数据的残差(residual)。所以,对回归问题的提升树来说,只需要简单的拟合当前模型的残差。
最后,准确的说,不是负梯度代替残差,而是损失函数是平方损失时,负梯度刚好是残差,残差只是特例。
参考
-
《统计学习方法》 李航
-
《GBDT算法原理与系统设计简介》 wepon