摘要:
算法的简要概述 在机器学习问题中,高维度数据进行回归和分类是一个很困难的问题。例如在许多Microarray生物数据上,数据的维度通常是千和万级别,但是由于收集数据需要昂贵的实验,因此可用的训练数据却相当少,通常只有50 300左右,这样的现象通常称为“small samples, large pr 阅读全文
摘要:
在各类比赛中经常出现预测回归问题,一般使用scikit learn的模型,本文就对这些类库的使用做一个总结,总结时注重自己做比赛中的使用经验。 1. Ordinary Least Squares(最小二乘法) 最简单的线性模型,损失函数是平方差损失,常用梯度下降法求解参数。 使用要点:这个模型不像其 阅读全文
摘要:
Logistic regression Sklearn中自带算法中两个特别的点: 1. 梯度下降法实现相对简单,但是其收敛速度往往不尽人意。所以在sklearn中LR用到的是sag、saga(这两种是梯度下降法的改进)、liblinear、cg(共轭梯度法,最快的梯度下降法)和lbfgs(拟牛顿法的 阅读全文