摘要: 所谓不均衡指的是不同类别的样本量差异非常大。从数据规模上分为大数据分布不均衡和小数据分布不均衡两种。 大数据分布不均衡:数据规模大,其中的小样本类的占比较少。但从每个特征的分布来看,小样本也覆盖了大部分或全部特征。 例如:1000万条数据,其中占比50万条的少数分类样本属于这种情况。 小数据分布不均 阅读全文
posted @ 2020-06-08 21:58 做梦当财神 阅读(2347) 评论(0) 推荐(0) 编辑
摘要: 集成学习 Bagging 与随机森林 Boosting 与 AdaBoost 算法 提升树 梯度提升树(GBDT) XGBoost 目录一、XGBoost 简介二、XGBoost 原理1. 从目标函数开始,生成一棵树1.1 学习第 t 颗树1.2 XGBoost 的目标函数1.3 泰勒公式展开1.4 阅读全文
posted @ 2020-06-08 00:33 做梦当财神 阅读(490) 评论(0) 推荐(0) 编辑