小小喽啰 - 博客园

2020年9月10日

摘要： 2021.3.11补充：官网地址：https://xgboost.readthedocs.io/en/latest/python/python_api.html DMatrix 是XGBoost中使用的数据矩阵。DMatrix是XGBoost使用的内部数据结构，它针对内存效率和训练速度进行了优化阅读全文

posted @ 2020-09-10 17:02 小小喽啰阅读(4404) 评论(0) 推荐(0)

XGBoost基本原理

摘要：目录一、XGBoost原理 1.1. 学习目标 1.2. 节点的划分 1.2.1 基本精确的贪心算法（Basic Exact Greedy Algorithm） 1.2.2 近似算法 1.2.3 带权重的分位数草图（Weighted Quantile Sketch）二. XGBoost的优缺点：阅读全文

posted @ 2020-09-10 14:59 小小喽啰阅读(2055) 评论(0) 推荐(2)

GBDT算法原理

摘要：目录一、GBDT 二. GBDT回归树基本模版三. GBDT的算法描述 3.1 GBDT的损失函数 3.1.1 梯度提升回归树损失函数介绍 3.1.2 梯度提升分类树损失函数介绍 3.2 GBDT回归算法描述 3.2.1 平方损失GBDT算法描述 3.2.2 绝对损失GBDT算法描述 3.2.3 阅读全文

posted @ 2020-09-10 10:14 小小喽啰阅读(1772) 评论(0) 推荐(0)

2020年9月9日

np.log 和math.log的底数是什么，默认都是e

摘要： np.log() 一直分不清楚log到底是以什么为底，就写下这个作为备忘看到没，是以e为底的，如果是其他的就logn import numpy as np print( 'np.e:',np.e) print( 'np.log([100,10000,10000]:',np.log([100,100 阅读全文

posted @ 2020-09-09 17:47 小小喽啰阅读(8684) 评论(0) 推荐(1)

AdaBoosts算法原理

摘要：我们带着问题去思考：弱学习器的权重系数 α 如何计算？样本点的权重系数 w 如何更新？学习的误差率 e 如何计算？最后使用的结合策略是什么？一、AdaBoost基本原理介绍 1,1AdaBoost分类问题以二分类为例，假设给定一个二类分类的训练数据集，其中表示样本点，表示样本对应的类别，阅读全文

posted @ 2020-09-09 17:38 小小喽啰阅读(1095) 评论(0) 推荐(1)

嵌套交叉验证

摘要：嵌套交叉验证(nested cross validation)选择算法（外循环通过k折等进行参数优化，内循环使用交叉验证），对特定数据集进行模型选择。Varma和Simon在论文Bias in Error Estimation When Using Cross-validation for Mode 阅读全文

posted @ 2020-09-09 11:00 小小喽啰阅读(3229) 评论(0) 推荐(1)

2020年9月8日

sklearn.model_selection.RandomizedSearchCV随机搜索超参数

摘要： GridSearchCV可以保证在指定的参数范围内找到精度最高的参数，但是这也是网格搜索的缺陷所在，它要求遍历所有可能参数的组合，在面对大数据集和多参数的情况下，非常耗时。这也是我通常不会使用GridSearchCV的原因，一般会采用后一种RandomizedSearchCV随机参数搜索的方法 Ra 阅读全文

posted @ 2020-09-08 18:58 小小喽啰阅读(4291) 评论(0) 推荐(0)

网格搜索的两个用法

摘要： 1.两层for循环暴力检索 # naive grid search implementation from sklearn.datasets import load_iris from sklearn.svm import SVC from sklearn.model_selection impor 阅读全文

posted @ 2020-09-08 17:48 小小喽啰阅读(592) 评论(0) 推荐(0)

sklearn.model_selection.validation_curve 验证曲线

摘要：验证曲线是用来提高模型的性能，验证曲线和学习曲线很相近，不同的是这里画出的是不同参数下模型的准确率而不是不同训练集大小下的准确率，主要用来调参，validation_curve方法使用采样k折交叉验证来评估模型的性能。 sklearn.model_selection.validation_curve 阅读全文

posted @ 2020-09-08 16:52 小小喽啰阅读(1251) 评论(0) 推荐(0)

sklearn.model_selection.learning_curve学习曲线

摘要：这个函数的作用为：对于不同大小的训练集，确定交叉验证训练和测试的分数。一个交叉验证发生器将整个数据集分割k次，分割成训练集和测试集。不同大小的训练集的子集将会被用来训练评估器并且对于每一个大小的训练子集都会产生一个分数，然后测试集的分数也会计算。然后，对于每一个训练子集，运行k次之后的所有这些分数将阅读全文

posted @ 2020-09-08 16:46 小小喽啰阅读(1412) 评论(0) 推荐(0)