摘要:
XGBoost 讲的非常好的链接:https://snaildove.github.io/2018/10/02/get started XGBoost/ 开始的优化目标根据加法模型和MSE的推导可以变成和第t棵树的一阶导和二阶导的关系, 再利用ft等于样本所在叶子节点上的权重,可以得到目标函数和样本 阅读全文
摘要:
Bagging vs. Boosting Bagging和Boosting是树模型集成的两种典型方式。Bagging集成随机挑选样本和特征训练不同树,每棵树尽可能深,达到最高的精度。依靠小偏差收敛到理想的准确率。Boosting算法注重迭代构建一系列分类器, 每次分类都将上一次分错的样本的权重提高, 阅读全文
摘要:
算法的简要概述 在机器学习问题中,高维度数据进行回归和分类是一个很困难的问题。例如在许多Microarray生物数据上,数据的维度通常是千和万级别,但是由于收集数据需要昂贵的实验,因此可用的训练数据却相当少,通常只有50 300左右,这样的现象通常称为“small samples, large pr 阅读全文
摘要:
在各类比赛中经常出现预测回归问题,一般使用scikit learn的模型,本文就对这些类库的使用做一个总结,总结时注重自己做比赛中的使用经验。 1. Ordinary Least Squares(最小二乘法) 最简单的线性模型,损失函数是平方差损失,常用梯度下降法求解参数。 使用要点:这个模型不像其 阅读全文
摘要:
Logistic regression Sklearn中自带算法中两个特别的点: 1. 梯度下降法实现相对简单,但是其收敛速度往往不尽人意。所以在sklearn中LR用到的是sag、saga(这两种是梯度下降法的改进)、liblinear、cg(共轭梯度法,最快的梯度下降法)和lbfgs(拟牛顿法的 阅读全文