机器学习十讲-第二讲回归

学习地址

数据酷客 大讲堂 机器学习第二讲

回归

用一个或多个自变量来预测因变量的数学方法

在机器学习中,回归指的是一类预测变量为连续值的有监督学习方法

在回归模型中,需要预测的变量叫做因变量,用来解释因变量变化的变量叫做自变量。

一元线性回归

一元线性回归

多元线性回归

多元线性回归

可能遇到的问题

多重共线性

​ 最小二乘的参数估计为 $ \widehat{w}=(XTX)X^Ty$ ,如果变量之间存在较强的共线性,则\(X^{T}X\)近似奇异,对参数的估计变得不准确,造成过度拟合现象。
​ 解决方法︰正则化、主成分回归、偏最小二乘回归

过度拟合问题

​ 当模型的变量过多时,线性回归可能会出现过度拟合问题

解决方法

正则化
正则化

值得注意的是,当 \(q=2\) 时,为岭回归,当 $ q=1 $时,为 \(LASSO\)

岭回归

岭回归

​ 当不断增大正则化参数入,估计参数\(\hat{w}^{ridge}(\lambda)\)(也称岭回归系数)在坐标系上的变化曲线称为岭迹。岭迹波动很大,说明该变量有共线性。

LASSO
  • LASSO是一种系数压缩估计方法,它的基本思想是通过追求稀疏性自动选择重要的变量
  • LASSO的目标函数∶\((Xw - y)^{T}(Xw - y)+{\lambda}{\parallel}w{\parallel}_1\)
  • LASSO 的解 \(\hat{w}^{LASSO}\) 没有解析表达式,常用的求解算法包括坐标下降法、LARS算法和ISTA算法等

LASSO

LASSO与岭回归

回归模型评价指标

评价指标

其中 \(y_i\) 为真实值,\(\bar{x}\) 为真实值的平均值,\(\hat{y}_i\) 为模型估计值

总结

总结

posted @ 2021-02-09 22:58  xppp11  阅读(173)  评论(0编辑  收藏  举报