四季度rgznds选拔思考

pandas的api

XGboost

XGBoost之所以称为梯度提升树 (Gradient Boosting Decision Tree, GBDT)，是因为它基于梯度提升的原理，逐步提升模型的表现，最终构建一个强大的预测模型。XGBoost通过集成一系列的决策树（称为弱学习器或基学习器）来完成这一过程。它的核心思想是在每一轮训练中生成新的树，以“修正”前一轮树的预测误差，从而不断优化模型。以下是XGBoost原理的详细介绍：

梯度提升的基本概念
梯度提升方法属于“集成学习”的一类，通过组合多个弱学习器来构建一个强学习器。在梯度提升树 (GBDT) 中，每棵树的目标是减小前面所有树的预测误差，这一过程的核心是通过梯度下降的思想，逐步最小化损失函数。

具体来说，梯度提升会在每一步训练中：

根据上一轮模型的残差（即预测误差），训练新的树来拟合这个残差。
通过“叠加”多轮训练得到的树的预测结果，构建一个更准确的模型。
2. XGBoost的核心原理
XGBoost在梯度提升树的基础上做了改进，使得它在准确性、速度和资源使用方面都得到优化。其原理可分为以下几点：

（1）损失函数的最小化
XGBoost的目标是最小化目标函数，该函数包括两部分：

损失函数 (Loss Function)：衡量模型的预测值与真实值之间的误差，如均方误差（MSE）等。
正则化项 (Regularization Term)：用于控制模型的复杂度，防止过拟合。通过添加树的叶节点数量和叶节点输出值的L2正则化，XGBoost可以抑制模型过拟合。
XGBoost的目标函数形式为：

Obj

∑
𝑖

1
𝑛
𝐿
(
𝑦
𝑖
,
𝑦
^
𝑖
(
𝑡
)
)
+
∑
𝑘

1
𝑇
Ω
(
𝑓
𝑘
)
Obj=
i=1
∑
n

L(y
i

,
y
^

i
(t)

)+
k=1
∑
T

Ω(f
k

)
其中，
𝐿
(
𝑦
𝑖
,
𝑦
^
𝑖
(
𝑡
)
)
L(y
i

,
y
^

i
(t)

) 是损失函数，
Ω
(
𝑓
𝑘
)
Ω(f
k

) 是正则化项，
𝑓
𝑘
f
k

表示第
𝑘
k 棵树。

（2）利用梯度进行提升

通过计算损失函数相对于预测值的导数（即梯度），XGBoost生成新树，以尽量沿着减少误差的方向前进。

（3）贪心算法分裂节点
XGBoost通过贪心算法，找到最佳分裂点来生成决策树的结构。对于每一个候选特征的分割点，计算该点的分割后增益（基于信息增益、均方误差等度量），选取增益最大的分割点来构建树节点。

（4）正则化和剪枝
XGBoost中的正则化项不仅能防止过拟合，还能让树模型更简单，提升模型泛化性。XGBoost会控制叶节点数量和每个叶节点的权重，以防止树过深而导致过拟合。此外，XGBoost支持“预剪枝”技术，可以提前停止树的生长，从而提高效率。

（5）Shrinkage（步长控制）和子采样
步长控制（Shrinkage）：在每次迭代中乘以一个小的学习率（如0.1），缓慢增加树的贡献，防止过拟合。
子采样（Subsampling）：在训练每棵树时只使用部分样本，从而减少方差并防止过拟合。
3. XGBoost的特点
XGBoost结合了梯度提升方法的优点，并在以下方面做出了优化：

并行化处理：XGBoost可以在特征维度上并行地构建树节点，提高了训练速度。
正则化控制：通过L1和L2正则化，提高模型的泛化能力。
早停机制：如果模型的性能在验证集上不再提升，XGBoost可以停止训练。
高效的内存管理：XGBoost通过块结构的处理方式，优化了大数据集的存储和访问。
4. 梯度提升树的过程示例
假设我们要拟合一个回归问题，使用均方误差（MSE）作为损失函数：

初始模型为一个常数（通常是目标变量的平均值）。
计算残差，将其作为新树的目标变量。
使用决策树拟合残差，并生成预测值。
将新树的预测结果按步长缩放后加入模型，更新预测值。
重复步骤2-4，直到满足停止条件（如达到树的数量或误差不再减少）。
经过多轮迭代，每棵树的预测结果相加，逐步逼近真实值。

总结
XGBoost基于梯度提升法，通过每一轮的残差拟合来逐步减少误差，最终构建一个强大的模型。XGBoost的优势在于它的高效性、灵活性以及对于大数据的处理能力，使得它在结构化数据的分类、回归任务中表现出色。

LightGBM

如何筛选特征

posted @ 2024-11-12 15:46 Chenyi_li 阅读(4) 评论(0) 编辑收藏举报

刷新页面返回顶部

Chenyi_li