强化学习的数学原理-06随即近似理论和随机梯度下降
Robbins-Monro algorithm
迭代式求平均数的算法
- 是
领域具有开创性的工作 - 大名鼎鼎的
是 算法的一种特殊情况
下面看一个求解方程问题
- 如果
的表达式已知,那么就有很多种算法可以求解 - 另一种是表达式未知的情况,就比如神经网络,这样的问题就可以用RM算法求解
下面就看一下RM算法如何解决上面的问题
我们的目标是求解
是对方程根的第 次估计 , 是对 的一个有噪音观测, 是一个噪音 是一个正系数
函数
下面是关于
下面看如何把
这是最开始介绍的
当时
下面就看一下这个
考虑这样一个函数
相对应的
上面的这个式子就是所给出的
Stochastic gradient descent
是一个待优化的参数 是一个随机变量,期望 是对 求的
求解这个问题下面给出3种方法,这三种方法是逐渐递进的
如果要最大化一个函数可以用梯度上升
被称为步长,是用来控制在梯度方向下降的快还是慢的- 这里要对梯度求期望,我们就需要模型或者数据两者其中之一
这个其实就是我们之前学习的蒙特卡洛的思想,思想比较简单,但是缺点是在每次更新
注意
- 在
中用的是 ,但是这个真正的梯度是不知道的,所以就用一个 来代替,,之所以被称为 是因为这里面有一个对 随机的采样 - 和
相比, 就是把 中的 变成了
下面是一个用
这个问题的解
下面是推导:
我们知道
于是
从
直接用
既然是近似两者之间存在有误差,那么两者之间的关系如下
那么
可以通过证明
于是我们可以用
结论:当
BGD、MBGD、 and SGD
可以认为
当
当
相比于
相比于
Summary
使用一组数 计算 , : ,
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· DeepSeek在M芯片Mac上本地化部署