Fork me on GitHub
摘要: lightgbm是继xgboost之后的又一大杀器,它训练速度快,且精度高,下面就其主要创新点做介绍,本文主要参考自>>> 一.单边梯度采样算法 GOSS(Gradient-based One-Side Sampling)是一种样本采样方法,它基于梯度的绝对值对样本进行采样,主要包含如下几个步骤: 阅读全文
posted @ 2021-07-04 19:57 努力的番茄 阅读(187) 评论(0) 推荐(0) 编辑
摘要: 样本采样与特征采样 类似于randomforest,xgboost也可进行bootstrap的样本采样,和随机列采样,以增强模型的泛化能力,避免过拟合 稀疏/缺失值处理 xgboost会为稀疏/缺失值选择一个默认方向,如果训练集中有稀疏/缺失值,通过计算其增益来选择往左还是往右作为默认方向,如果训练 阅读全文
posted @ 2021-07-04 19:54 努力的番茄 阅读(288) 评论(0) 推荐(0) 编辑
摘要: 一.简介 xgboost分类分两种情况,二分类和多分类: (1) 二分类的思路与logistic回归一样,先对线性函数套一个sigmoid函数,然后再求交叉熵作为损失函数,所以只需要一组回归树并可实现; (2)而多分类的实现,思路同gbm_classifier一样,即同时训练多组回归树,每一组代表一 阅读全文
posted @ 2021-07-04 19:51 努力的番茄 阅读(408) 评论(0) 推荐(0) 编辑
摘要: 一.原理介绍 这一节将树模型的预测与概率分布相结合,我们假设树模型的输出服从某一分布,而我们的目标是使得该输出的概率尽可能的高,如下图所示 而概率值最高的点通常由分布中的某一个参数(通常是均值)反映,所以我们将树模型的输出打造为分布中的该参数项,然后让树模型的输出去逼近极大似然估计的结果即可,即: 阅读全文
posted @ 2021-07-04 19:47 努力的番茄 阅读(1511) 评论(0) 推荐(0) 编辑
摘要: 一.损失函数 这一节对xgboost回归做介绍,xgboost共实现了5种类型的回归,分别是squarederror、logistic、poisson、gamma、tweedie回归,下面主要对前两种进行推导实现,剩余三种放到下一节 squarederror 即损失函数为平方误差的回归模型: \[ 阅读全文
posted @ 2021-07-04 19:42 努力的番茄 阅读(847) 评论(0) 推荐(0) 编辑
摘要: 一.简介 xgboost在集成学习中占有重要的一席之位,通常在各大竞赛中作为杀器使用,同时它在工业落地上也很方便,目前针对大数据领域也有各种分布式实现版本,比如xgboost4j-spark,xgboost4j-flink等。xgboost的基础也是gbm,即梯度提升模型,它在此基础上做了进一步优化 阅读全文
posted @ 2021-07-04 19:39 努力的番茄 阅读(353) 评论(0) 推荐(0) 编辑