统计学习方法笔记提升树

提升树是以分类树或回归树为基本分类器的提升方法

提升树被认为是统计学习中性能最好的方法之一

提升方法实际采用加法模型（基函数的线性组合）与前向分步算法

以决策树为基函数的提升方法称为提升树

对分类问题决策树是二叉分类树

对回归问题决策树是二叉回归树

提升树模型可以表示为决策树的加法模型：

T(x;Θ_m)表示决策树；

Θ_m为决策树的参数；

M为树的个数。

提升树算法采用前向分步算法。

首先确定初始提升树f₀(x)＝0，第m歩的模型是

f_m-1(x)为当前模型，通过经验风险极小化确定下一棵决策树的参数Θ_m，

下面讨论针对不同问题的提升树学习算法，其主要区别在于使用的损失函数不同。

包括用平方误差损失函数的回归问题，用指数损失函数的分类问题

回归问题的提升树：

训练数据集T＝{(x₁，y₁),(x₂,y₂),…,(x_N,y_N)}

如果将输入空间x划分为J个互不相交的区域R₁,R₂,…,R_J，并且在每个区域上确定输出的常量c_j，那么树可表示为

参数Θ＝{(R₁,c₁),(R₂,c₂),…,(R_J,c_J)}表示树的区域划分和各区域上的常数。

J是回归树的复杂度即叶结点个数。

利用如下前向分布算法：

在前向分步算法的第m步，给定当前模型f_m-1(x)，需求解

得到Θ，即第m棵树的参数。

当采用平方误差损失函数时：

其损失变为：

这里：

是当前模型拟合数据的残差（residual）。

所以，对回归问题的提升树算法来说，只需简单地拟合当前模型的残差。

posted on 2015-06-13 22:04 Lauen_1 阅读(441) 评论(0) 编辑收藏举报

刷新页面返回顶部

Lauen_1