梯度下降法
方向导数
方向导数指的是曲面上某一点沿任意方向的变化率
我们知道在求偏导的时候,方向被限制在了坐标轴上
所以定义\(u=cos\theta_i+sin\theta_j\),用来表示任意方向上的导数
方向导数
\[Duf=\lim_{t\to 0} \frac {f(x_0+tcos\theta,y_0+tsin\theta)-f(x_0,y_0)} t\\
Duf(x,y)=f_x(x,y)cos\theta+f_y(x,y)sin\theta \\
\]
表示成两个向量内积的形式
\[A=(f_x(x,y),f_y(x,y) \quad I=(cos\theta,sin\theta)\\
Duf(x,y)=A \cdot I=|A||I|cos\alpha\\
\]
方向导数=梯度向量x方向向量,是个标量
当\(\alpha=0, \ cos\alpha=1\)时,方向向量与梯度向量的方向一致,方向导数取到最大值,也就是梯度的模
梯度 Gradient
梯度是一个向量
\[grad f(x,y)=\frac {\partial f} {\partial x} i +\frac {\partial f} {\partial y} j |_{x= x_0 ,y= y_0 }
\]
梯度方向是上升方向,函数增长最快的方向
所以取梯度的反方向是下降最快的方向
梯度下降法
梯度下降法的公式即可写作,其中\(\eta\)为learning rate学习率,也叫步长
\[\theta=\theta_0-\eta \cdot \nabla f(\theta_0)
\]
多变量示例
矩阵表示