懵懂的菜鸟

Stay hungry,Stay foolish.

导航

分类算法

分类算法

二分类

线性支持向量机,Logistic回归,决策树,随机森林,梯度上升树,朴素贝叶斯

多类分类

Logistic回归,决策树,随机森林,朴素贝叶斯

回归

线性最小二乘法,Lasso,岭回归,决策树,随机森林,梯度上升树,保序回归

 

Random Forest

随机森林(决策树+bagging(bootstrap Aggregating))

随机森林:测量每个特征对预测的相对重要性,进行取舍。

 

Lasso算法(Least absolute shrinkage and selection operator,最小绝对值收敛和选择算法、套索算法)是一种同时进行特征选择和正则化的回归分析方法,旨在增强统计模型的预测准确性和可解释性。

 

Ridge Regression(岭回归)在原先A的最小二乘估计中加入一个小扰动值,使原先无法求广义逆的情况变成可以求出其广义逆,使得问题稳定。

 

线性回归的损失函数

岭回归的损失函数,约束条件用圆形表示

Lasso回归的损失函数,约束条件用方形表示

 

Gradient Boost(渐进梯度)只是一个框架,里面可以套用很多算法。

 

同一个算法的不同叫法:

GBDT(Gradient Boosting Decision Tree)渐进梯度决策树

GRRT(Gradient Boosting Regression Tree)渐进梯度回归树

MART(Multiple Additive Regression Tree)多决策回归树

(Tree Network)决策网路

GBDT在被提出之初和SVM一起被认为是泛化能力较强的算法。近些年被用于搜索排序的机器学习模型中。GBDT是回归树,不是分类树,核心在于,每一颗树是从之前所有树的残差中来学习的。为了防止过拟合,和Adaboosting一样,加入了boostring。

GBDT使用损失函数的梯度作为新的训练数据的y值。

(Boosting Tree)提升树模型,提升树使用残差作为新的训练数据。

损失函数:

残差:

 

GBRT

优点:

  1. 可以处理不同类型的数据
  2. 预测能力强
  3. 对空间外的异常处理很健壮

缺点:

扩展性不好,boosting是顺序执行的,很难并行化。

 

保序回归

    保序回归是回归算法的一种。其结果被称为保序回归,而且其解是惟一的,它被视为有顺序约束下的最小二乘法问题。

训练数据是DataFrame格式,包含标签、特征值以及权重三列。

保序算法有一个参数istonic,默认为真,它指定保序回归为保序(单调递增)或者反序(单调递减)。

应用:统计推理,评估药物在不同药剂下的毒性。

 

SVM(support Vector Machine)

支持向量机由线性分类开始。

 

 

 

 

posted on 2019-05-10 23:45  懵懂的菜鸟  阅读(613)  评论(0编辑  收藏  举报