机器学习笔记（3）多变量线性回归

模型介绍

多变量线性回归类似于单变量线性回归，只是需要考虑的影响特征数目变多，通过对多个变量x_i进行分析，进而预测结果y。类似于单变量线性回归的假设函数，给出多变量线性回归的假设函数：

$h_θ(x)=θ_0+θ_1x_1+θ_2x_2+…+θ_nx_n$

利用线性代数的知识，可以将系数θ定义为一个向量：

$θ=\left[ \begin{matrix} θ_0 \\ θ_1 \\ θ_2 \\ \vdots \\ θ_n \end{matrix} \right]$

变量x定义为：

$x=\left[ \begin{matrix} x_0 \\ x_1 \\ x_2 \\ \vdots \\ x_n \end{matrix} \right]$

则假设函数可以写成：

$h_θ=θ^Tx$

代价函数

类似于单变量线性回归，我们有n个特征值，我们写出代价函数：

$J(θ)=\frac{1}{2m}\sum_{i=1}^{m} {(h_θ(x^{(i)})-y^{(i)})^2}$

梯度下降

$θ_j:=θ_j-α\frac{∂}{∂θ_j}J(θ)$

$(for (j=0,……n))$

解开之后的规律为：

$θ_j:=θ_j-α\frac{1}{m}\sum_{i=1}^{m} {(h_θ(x^{(i)})-y^{(i)})x_j^{(i)}}$

当然对于某些情况，例如对于一个多变量的模型，其各个变量的取值范围差异很大，就会导致在执行梯度下降的过程中，速度缓慢且可能产生波动。所以引出一个技巧：

特征缩放

对于上述的情况，希望能将各变量的取值范围保持在 $-1\leq x\leq 1$ 类似的一个范围里，并且使得各变量的取值范围一致。

利用均值归一化，可以得到一个比较理想的结果：

$x_i=\frac{x_i-μ_i}{s_i}$

其中μ为x训练集的平均数，s为范围的标准差。

学习率α的选择

可以通过描绘以迭代层数为x轴的J(θ)图像来观察梯度下降算法是否合理运行。以此为依据，调整合理的学习率α。

正规方程

梯度下降算法中的偏导数，可能不一定好计算，在之前的单变量线性回归中，分析过当 $\frac{∂}{∂θ_j}J(θ)=0$ 时算法到达边界，根据这个条件，给出下列算法：
对于一组训练集：

x₀	x₁	x₂	x₃	x₄	y
1	2104	5	1	45	460
1	1416	3	2	40	232
1	1534	3	2	30	315
1	852	2	1	36	178

可以分别写成矩阵：

$X=\left[ \begin{matrix} 1 & 2104 & 5 & 1 & 45 \\ 1 & 1416 & 3 & 2 & 40 \\ 1 & 1534 & 3 & 2 & 30 \\ 1 & 852 & 2 & 1 & 36 \end{matrix} \right]$

和向量：

$y=\left[ \begin{matrix} 460 \\ 232 \\ 315 \\ 178 \end{matrix} \right]$

则θ公式为：

$θ=(X^TX)^{-1}X^Ty$

与梯度下降的选择

梯度下降算法需要选择学习率α，正规方程不需要
梯度下降算法需要很多次迭代，正规方程不需要
梯度下降算法在在特征量很多的时候依然运行良好，而正规方程的时间复杂度为O(n³)，在特征量数量很大的时候，效率会变低。（大约为10⁴这个量级）

posted @ 2019-03-06 17:10 水喵桑阅读(793) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 2025成都.NET开发者Connect圆满结束
· 后端思维之高并发处理方案
· 在 VS Code 中，一键安装 MCP Server！
· 千万级大表的优化技巧
· langchain0.3教程：从0到1打造一个智能聊天机器人

真就妙妙屋啊都

We always keep minority spirit.

机器学习笔记（3）多变量线性回归

模型介绍

代价函数

梯度下降

特征缩放

学习率α的选择

正规方程

与梯度下降的选择

公告

常用链接

随笔分类

随笔档案

相册

大神

工具

算法

阅读排行榜

评论排行榜

推荐排行榜

最新评论