xgboost安装与原理

1、xgboost库的安装

先在网址https://www.lfd.uci.edu/~gohlke/pythonlibs/#xgboost 中下载whl文件，注意一定要下载跟自己当前安装Python版本一致的whl文件

比如我是Python3.6，64位操作系统，所以要安装xgboost-0.72-cp36-cp36m-win_amd64.whl。

然后将它放到conda文件夹下，用anaconda prompt切换到该路径下，使用pip install xgboost-0.72-cp36-cp36m-win_amd64.whl安装文件就可以了。

2、原理说明

说明：监督学习与非监督学习

监督学习是根据带标签的数据进行数据学习。所谓监督学习，就是两步，一是定出模型确定参数，二是根据训练数据找出最佳的参数值，所谓最佳，从应用角度看，就是最大程度地吸收了10万条训练数据中的知识。

如何寻找最佳参数？

确定目标函数，根据目标函数的值确定预测模型的好坏，但是存在的问题是：1）预测样本中有错误值；2）样本中可能含有极端值。比如说我们对60岁以上年纪的人的数据预测模型去预测6岁孩子的数据，结果自然是不具有参考性的。那么，如何使得参数最优呢？

那就是正则化。

所谓正则化就是对参数施加一定的控制，防止参数走向极端。以上面的例子来说，假如10万条数据中，得癌症的病人都是60岁以上老人，没得癌症的病人都是30岁以下年轻人，检查结果中有一项是骨质密度，通常，老人骨质密度低，年轻人骨质密度高。那么我们学习到的模型很可能是这样的，对骨质密度这项对应的参数θ_j设的非常大，其他的参数都非常小，简单讲，模型倾向于就用这一项检查结果去判断病人是否得癌症，因为这样会让目标函数最小。

常用的正则化就是L2正则，也就是所有参数的平方和。我们希望这个和尽可能小的同时，模型对训练数据有尽可能好的预测。

最后，我们将L2正则项加到最初的目标函数上，就得出了最终的目标函数：
obj = ∑_i(sigmoid(∑_j θ_j*x_ij) - y_i)^2 + ∑_j(θ_j^2)

能使这个函数值最小的那组参数就是我们要找的最佳参数。这个obj包含的两项分别称为损失函数和正则项。
这里的正则项，本质上是用来控制模型的复杂度。

Xgboost就是一个监督模型，可以用于分类和回归，其结构就是一堆CART树，即将每棵树的预测值加到一起作为最终的预测值，可谓简单粗暴。

CART树与决策树的区别：CART可以用于分类和回归。https://blog.csdn.net/lzzdflg/article/details/78649925

CART是在给定输入随机变量X条件下输出随机变量Y的条件概率分布，与ID3和C4.5的决策树所不同的是，ID3和C4.5生成的决策树可以是多叉的，每个节点下的叉树由该节点特征的取值种类而定，比如特征年龄分为（青年，中年，老年），那么改节点下可分为3叉。而CART为假设决策树为二叉树，内部结点特征取值为”是”和”否”。左分支取值为”是”，有分支取值为”否”。这样的决策树等价于递归地二分每一个特征，将输入空间划分为有限个单元，并在这些单元上预测概率分布，也就是在输入给定的条件下输出条件概率分布。

通常目标函数包含两部分:训练误差和正则化

o b j (θ) = L (θ) + Ω (θ)

其中L是损失函数,度量模型预测与真实值的误差。常用的损失函数：
预测问题的平方损失函数：

L (θ) = Σ i (y i - y i^) 2

logistic 损失：

L (θ) = Σ i [y i l n (1 + e - y i^) + (1 - y i) l n (1 + e

Ω

假设有两颗回归树，则两棵树融合后的预测结果如上图。
用公式表示为：

y i^= Σ K k = 1 f k (x i), f k \in F

其中， K 是树的个数，

f_{k} (x_{i})

obj (θ) = Σ n i l (y i, y i^) + Σ K k = 1 Ω (f k)

函数 $l$

$l$

posted @ 2018-07-10 15:35 我不是小鲁班阅读(2527) 评论(0) 收藏举报

我不是小鲁班

自律才能自由。

xgboost安装与原理

公告