分类算法
分类算法
二分类
线性支持向量机,Logistic回归,决策树,随机森林,梯度上升树,朴素贝叶斯
多类分类
Logistic回归,决策树,随机森林,朴素贝叶斯
回归
线性最小二乘法,Lasso,岭回归,决策树,随机森林,梯度上升树,保序回归
Random Forest
随机森林(决策树+bagging(bootstrap Aggregating))
随机森林:测量每个特征对预测的相对重要性,进行取舍。
Lasso算法(Least absolute shrinkage and selection operator,最小绝对值收敛和选择算法、套索算法)是一种同时进行特征选择和正则化的回归分析方法,旨在增强统计模型的预测准确性和可解释性。
Ridge Regression(岭回归)在原先A的最小二乘估计中加入一个小扰动值,使原先无法求广义逆的情况变成可以求出其广义逆,使得问题稳定。
线性回归的损失函数
岭回归的损失函数,约束条件用圆形表示
Lasso回归的损失函数,约束条件用方形表示
Gradient Boost(渐进梯度)只是一个框架,里面可以套用很多算法。
同一个算法的不同叫法:
GBDT(Gradient Boosting Decision Tree)渐进梯度决策树
GRRT(Gradient Boosting Regression Tree)渐进梯度回归树
MART(Multiple Additive Regression Tree)多决策回归树
(Tree Network)决策网路
GBDT在被提出之初和SVM一起被认为是泛化能力较强的算法。近些年被用于搜索排序的机器学习模型中。GBDT是回归树,不是分类树,核心在于,每一颗树是从之前所有树的残差中来学习的。为了防止过拟合,和Adaboosting一样,加入了boostring。
GBDT使用损失函数的梯度作为新的训练数据的y值。
(Boosting Tree)提升树模型,提升树使用残差作为新的训练数据。
损失函数:
残差:
GBRT
优点:
- 可以处理不同类型的数据
- 预测能力强
- 对空间外的异常处理很健壮
缺点:
扩展性不好,boosting是顺序执行的,很难并行化。
保序回归
保序回归是回归算法的一种。其结果被称为保序回归,而且其解是惟一的,它被视为有顺序约束下的最小二乘法问题。
训练数据是DataFrame格式,包含标签、特征值以及权重三列。
保序算法有一个参数istonic,默认为真,它指定保序回归为保序(单调递增)或者反序(单调递减)。
应用:统计推理,评估药物在不同药剂下的毒性。
SVM(support Vector Machine)
支持向量机由线性分类开始。