CART,BDT,GBDT,XGBOOST

CART:

回归树的基本思想和分类树差不多,就是递归寻找最有切分特征j,和最优切分点s,即,求解

这是一个递归子空间求解最优的过程,在满足停止条件(比如生成N个划分空间)时返回树。

 

分类树(和ID3类似):

类比ID3的信息增益和C4.5的信息增益比,CART分类树用基尼指数来作为最优特征的选择标准

 

基尼指数:   PK表示,样本点属于K类的概率。

基尼指数意义和熵类似,总体内包含的类别越杂乱,GINI指数就越大,主要区别在于,熵达到峰值的过程要相对慢一些。因此,熵对于混乱集合的判罚要更重一些

 

 

 

BDT:提升树采用向前分布算法:   fm(x)=fm1(x)+T(x;θm),其中下一棵树抉择树的参数通过经验风险最小化确定。θm=argminθmi=1NL(yi,fm1(xi)+T(xi;θm)

 

回归问题的提升树主要是下一颗树对当前残差(r = yi - f m-1 ( x i ))的拟合   ,损失函数使用回归问题的损失函数。比如平方误差损失函数

 

每次训练和训练回归树过程一样,只不过下一次训练的数据集是上一次训练的残差,得到的树相加之前已知树,反复该过程,直到满足停止条件(比如loss小于阈值,次数达到设定值)。

 

分类问题的提升树,可以把Adaboost中基本分类器设置为分类树即可。

ps.在实际问题中常用回归树设定阈值的方法来解决分类问题。

 

 

 

GBDT:相对于提升树,GBDT将前一棵树的损失函数的负梯度值当作残差的近似值进行拟合,

posted @ 2018-11-06 14:27  jellyj  阅读(696)  评论(0编辑  收藏  举报