回归分析-概述

在大数据分析中，回归分析是一种预测性的建模技术，旨在通过数据统计分析，探索数据规律。回归分析主要研究因变量（目标）和自变量（预测器）之间的关系。这种技术通常用于预测分析，时间序列模型以及发现变量之间的因果关系。

1. Linear Regression线性回归

线性回归是最常见的回归分析技术。在线性回归中，因变量是连续的，自变量可以是连续的也可以是离散的，线性回归的本质是线性的。
线性回归使用最优拟合直线（回归线），在因变量y和一个或多个自变量X之间建立一种关系。在回归方程\(Y = bX + a\)中，斜率b称为回归系数，表示X每变动一单位，平均而言，Y将变动b单位。

2. Logistic Regression逻辑回归

是一种广义的线性回归分析模型，属于机器学习中的监督学习。其推导过程与计算方式类似于回归分析过程，但是实际上主要用来解决二分类问题。
逻辑回归的核心是sigmoid函数\(\sigma (x) = \frac{1}{1+e^{-x}}\)，这个函数能将输入的每一组数据\(x^{i}\)映射到0-1之间。并且如果函数值大于0.5，就判断属于类别1，否则属于0。那么更为一般化，则有
\(h(x^{i}) = \frac{1}{1+e^{-(w^{T}x+b)}}\)。容易得到\(h(x^{i})\)属于类别0，当\(w^{T}x+b < 0\)时，反则反之。

3. Polynominal Regression多项式回归

对于一个回归方程，如果自变量的指数大于1，则为多项式回归方程，例如：
\(y = b*x^{2} + a\)，这种回归技术中，最佳拟合线不是直线。而是一个用于拟合数据点的曲线。

4. Stepwise Regression逐步回归

在处理多个自变量时，可以使用这种形式的回归。在这种技术中，自变量的选择是在一个自动的过程中完成的，其中包括非人为操作。
这一壮举是通过观察统计的值，如R-square，t-stats和AIC指标，来识别重要的变量。逐步回归通过同时添加/删除基于指定标准的协变量来拟合模型。下面列出了一些最常用的逐步回归方法：
标准逐步回归法做两件事情。即增加和删除每个步骤所需的预测。
向前选择法从模型中最显著的预测开始，然后为每一步添加变量。
向后剔除法与模型的所有预测同时开始，然后在每一步消除最小显著性的变量。
这种建模技术的目的是使用最少的预测变量数来最大化预测能力。这也是处理高维数据集的方法之一

5. Ridge Regression岭回归

当数据之间存在多重共线性（自变量高度相关）时，就需要使用岭回归分析。在存在多重共线性时，尽管最小二乘法（OLS）测得的估计值不存在偏差，它们的方差也会很大，从而使得观测值与真实值相差甚远。岭回归通过给回归估计值添加一个偏差值，来降低标准误差。
在线性等式中，预测误差可以划分为 2 个分量，一个是偏差造成的，一个是方差造成的。预测误差可能会由这两者或两者中的任何一个造成。在这里，将讨论由方差所造成的误差。
岭回归通过收缩参数λ（lambda）解决多重共线性问题。请看下面的等式：
\(argmin J(\beta) = \left \| y-X\beta \right \|_{2}^{2} +\lambda \left \| \beta \right \| _{2}\)
岭回归即对应着在最小二乘法基础上增加了一个L2正则化。

6. Lasso Regression套索回归

Lasso（Least Absolute Shrinkage and Selection Operator）也会就回归系数向量给出惩罚值项。此外，它能够减少变化程度并提高线性回归模型的精度。公式如下：
\(argmin J(\beta) = \left \| y-X\beta \right \|_{2}^{2} +\lambda \left \| \beta \right \| _{1}\)
与岭回归不同的是目标函数后加一个权重\(\beta\)的1-范数。

7. ElasticNet 弹性网络回归

弹性网络回归算法的代价函数结合了 Lasso回归和岭回归的正则化方法，通过两个参数\(\lambda\)和 \(\rho\)来控制惩罚项的大小。具体公式如下：
\(Cost(w) = \sum_{i=1}^{N}(y_{i} - w^{T}x_{i})^{2} + \lambda \rho \left \| w \right \| _{1} + \frac{\lambda (1-\rho )}{2}\left \| w \right \|_{2}^{2}\)

posted @ 2023-04-06 20:36 Bonne_chance 阅读(614) 评论(0) 编辑收藏举报

刷新页面返回顶部

Bonne_chance