GBDT算法是一种监督学习算法。监督学习算法需要解决如下两个问题:
1.损失函数尽可能的小,这样使得目标函数能够尽可能的符合样本
2.正则化函数对训练结果进行惩罚,避免过拟合,这样在预测的时候才能够准确。
GBDT算法需要最终学习到损失函数尽可能小并且有效的防止过拟合。
以样本随时间变化对某件事情发生的变化为例,如下几副图形象的说明了机器学习的作用。
假设随着时间的变化对K话题存在如下样本:
如果没有有效的正则化,则学习结果会如下图所示:
这种情况下,学习结果跟样本非常符合,损失函数也非常小,但是这种样本在预测的时候,由于过拟合,失败率会很高。
如果损失函数太大,则学习结果如下图所示:
这种情况,学习结果跟样本差别太大,损失函数也很大,在预测的时候由于误差跳大,失败率也会很高。
损失函数和正则化防止过拟合平衡后的学习结果如下图所示:
在这种情况下损失函数和正则化函数防止过拟合达到了一个平衡,预测会比较准。
GBDT算法训练结果是一个决策森林。GBDT算法在训练的时候迭代N次,森林里面就会包含N棵树,每棵树都包含若干个叶子,每个叶子对应某个特定的分数。GBDT决策森林的学习的最终结果是
1.每个叶子对应的分数
2.每个决策树的结构
以是否喜欢某个游戏根据样本创建决策森林为例,如下图所示,5个样本,
假设进行了2次迭代,学习后的结果包含如下2棵树
是否喜欢某个游戏的分数,对于第一个样本男孩,在第一棵树得分是2分,在第二棵树得分是0.9分,它的总共分数是2.9分;第三个样本老爷爷,第一棵树得分是-1,第二棵树得分是0.9,得到它的分数是-0.1分。
对于上面的例子来说机器学习的最终目的是学习出上面第一棵树的函数f1,能够知道
f1(男孩)=2
第二棵树的函数f2,能够知道
f2(男孩)=0.9
还要学习出对于第一棵树,为什么age这个feature是第一个分裂元素?age为什么在15岁的时候进行分裂?
二:GBDT算法的原理
假设存在K棵树,则样本i的得分为:
n个样本,在K棵树下的目标函数为:
GBDT算法的迭代过程可以通过如下图表示:
第t轮迭代,我们需要确定的就是
第t轮迭代的目标函数为:
目标函数的变量是
我们通过优化第t轮迭代的目标函数来确定
以下数学推导过程为优化目标函数的过程。
优化t轮迭代的目标函数使用了泰勒展开式:
目标函数通过泰勒展开式展开结果如下:
其中:
表示损失函数的1阶导数,表示损失函数的2阶导数
在第t棵树中,存在一个映射函数能够把一个样本映射到某个叶子节点,这个方法称为:
为了说明这个方法的作用,对于如下样例树:
如上图标红所示,小男孩经过这个方法映射后,映射到了第一个叶子;老奶奶经过这个方法映射后,映射到第三个叶子
对于上图中的小男孩来说,=w1
在这里正则化函数定义为:
其中T表示树种包含T个叶子,对于上面的样例树,它的正则化惩罚函数为:
第j个叶子对应的样本集合用如下式子表示:
因为所有的样本都映射到了某个叶子上,所以目标函数可以从样本求和转化为叶子的求和:
目标函数转化为一元二次方程的求和。
我们再加上如下定义:
上面目标函数(一元二次方程求和)在为如下位置取得最小值:
最小值为:
可以看到目标函数的值是T个叶子的和
对于上图的样例树来说,对应的目标函数结果、、为如下图所示:
上图中对第三个叶子节点进行了标红显示。可以看到第三个叶子节点包含了第2、第3、第5共3个样本。在计算第三个叶子的得分的时候,会用到3个样本的gradient statistics.
在创建决策树的时候,一个叶子节点分裂后的信息增益为:
最优的分裂点就是信息增益(Gain)最大的位置。
为了找到一个Feature的最大增益位置,首先根据这个Feature的值对样本进行排序,然后依次扫描所有样本,计算出每个分裂点的增益,然后取增益最大的位置作为分裂点。如下图所示:
上图中,先对年龄这个Feature进行了排序,然后从小到大依次扫描样本,计算每个分裂点的Gain,最终取增益最大的位置做为年龄这个Feature的分裂点。
但是在建立决策树的时候存在多个Feature,哪个Feature最先分裂呢?
答案是我们需要遍历所有Feature,找到每个Feature的增益最大的分裂点,并计算出每个Feature分裂点的增益,然后取所有Feature分裂点的增益最大的Feature作为最先分裂点。这个过程如下图表示:
最终使用贪婪法,重复上面的过程,建立一棵完整的决策树。
从上面的分裂过程可以知道,每次分裂的目的是为了获得更多的信息增益,如果分裂后信息增益为负数,则停止分裂