李宏毅《机器学习》总结 - Q-learning(待填)
之前提到过,强化学习中有 policy gradient 的方法,其实质是利用 MC 的方法对于当前的模型( 或者 ,可以认为是由状态到行为的映射)重复跑很多次,求出估计的“期望值”,最终目标是最大化他们的 reward(因此可以将 loss 设置成负的期望)。
这样做有个问题就是我们可能无法重复跑很多次模型,无法进行到结尾。因此,可以考虑 actor-critic,其中 critic 可以是对于当前状态的期望 reward 评估函数(),也可以是对于当前状态+某个决策(下称 action)的评估函数()。其中 函数可以利用 TD 的方法训练,这样就规避了 MC 中每次都需要跑完的影响效率的问题。而 Q-learning 主要是针对 函数展开的。
Q 函数的引入
表示在状态为 s 时,强制采取行动 a 时,接下来的行为服从 时的期望 reward。
Q-learning 的流程图:
首先, 会和环境交互,获得一些在 state 下的 action 及其获得的 reward 的数据,接着,使用 TD 等方法可以学习到当看到状态 s 之后,如果当前一步强制采取行为 a,总共能获得的期望 reward。如果我们训练好了 ,我们就可以确定的找到一个新的 actor 会更好,持续下去就会训练好一个 actor。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 记一次.NET内存居高不下排查解决与启示