【Coursera Machine Learning】适用多个特征量的梯度下降

引入

首先我们假设一个有多个特征量的情况：

我们的目标函数应该会变成下面的样子：

h_{θ} (x) = θ_{0} + θ_{1} x_{1} + θ_{2} x_{2} + . . . + θ_{n} x_{n}

$h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2+...+\theta_nx_n$

define $x_0=1$

那么：

x = [\begin{matrix} x_{1} \\ x_{2} \\ ⋮ \\ x_{n} \end{matrix}] \in R^{n + 1} ， θ = [\begin{matrix} θ_{1} \\ θ_{2} \\ ⋮ \\ θ_{n} \end{matrix}] \in R^{n + 1} h_{θ} (x) = θ_{0} x_{0} + θ_{1} x_{1} + \dots + θ_{n} x_{n} = θ^{T} x

$x= \left[ \begin{array}{1} x_1\\x_2\\\vdots\\x_n \end{array} \right] \in \R^{n+1} ， \theta= \left[ \begin{array}{1} \theta_1\\\theta_2\\\vdots\\\theta_n \end{array} \right] \in \R^{n+1} \\ h_\theta(x)=\theta_0x_0+\theta_1x_1+\dots+\theta_nx_n\\=\theta^Tx$

p.s.： $\theta^T$ 表示 $\theta$ 的转置向量

多特征量梯度下降

假设： $h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2+...+\theta_nx_n=\theta x$

并约定 $x_0=1$

参数： $\theta_0，\theta_1，\dots，\theta_n$ 。可以想象成一个n+1维的向量 $\theta$

代价函数： $J(\theta)=J(\theta_0，\theta_1，\dots，\theta_n)=\frac{1}{2m}\sum^m_{i=1}(h_\theta(x^{(i)})-y^{(i)})^2$

梯度下降公式：

重复：

θ_{j} := θ_{j} - α \frac{\partial}{\partial θ_{j}} J (θ)

$\theta_j:=\theta_j-\alpha\frac{\partial}{\partial\theta_j}J(\theta)$

且可以分别推导出 $\theta_0和\theta_1$ 的梯度下降公式

而当特征量有多个， $n\geq1$ 时，梯度下降公式变为如下：

θ_{j} := θ_{j} - α \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - j^{(i)}) x_{j}^{(i)}

$\theta_j:=\theta_j-\alpha\frac{1}{m}\sum^m_{i=1}(h_\theta(x^{(i)})-j^{(i)})x^{(i)}_j$

最终用于实现的梯度下降公式！

θ = θ - α \frac{1}{m} X^{T} (X_{θ} - y)

$\theta=\theta-\alpha\frac{1}{m}X^T(X_\theta-y)$

梯度下降的实用技巧

特征缩放

有时候画出等高线图如果过于狭长可能会导致运行到函数收敛的时间太长，这时比如选择将一些参数除以一定倍率可以将等高线图的形状变得均匀（变圆）

执行特征缩放时，一般会将特征的取值约束到 $\pm1$ 之间。差距稍微大一点点比如在 $\pm3$ 之间也是可以接受的。往小了说，在 $\pm\frac{1}{3}$ 之间也可以，但是太小也不行。

归一化（Mean normalization）

可以在特征缩放的时候在分子里再减去一个的平均数，比如 $x_1=\frac{size-1000}{2000}$

$x_1\larr\frac{x_1-\mu_1}{s_1}$

$\mu_1$ ：特征 $x_1$ 的平均值

$S_1$ ：特征值的范围，即最大值-最小值

Debugging

How to make sure gradient descent is working correctly

画出 -迭代次数的图像，正确工作的梯度下降法中 $minJ(\theta)$ 会随着迭代次数的增加持续减小。一般也通过这种方式来判断梯度下降算法是否已经收敛。

此外也有一些算法可以自动反馈梯度下降算法是否收敛。比如设置当 $J(\theta)$ 的下降小于 $10^{-3}$ 时就认为已经收敛。但通常来说要选择一个合适的阈值 $\epsilon$ 是相当困难的。

选择Learning rate $\alpha$

有时候如果你发现画出的图像曲线是向上的或者类似双曲线等，或者其它梯度下降算法没有正确收敛的情况，可以尝试将Learning rate设置为更小的值。

posted on 2022-08-03 16:04 安逐悲阅读(35) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 【Coursera Machine Learning】线性回归问题的梯度下降算法

· 算法第一课：复杂度引入

· 吴恩达学习笔记3(multiple gradient descent)

· 吴恩达机器学习（6）多元梯度下降法

· 多变量线性回归 || 特征缩放 || 特征选择和多项式回归 || 标准方程

安逐悲

【Coursera Machine Learning】适用多个特征量的梯度下降

引入

多特征量梯度下降

最终用于实现的梯度下降公式！

梯度下降的实用技巧

特征缩放

归一化（Mean normalization）

Debugging

导航

公告

搜索

常用链接

最新随笔

积分与排名

随笔分类

随笔档案

阅读排行榜