李宏毅《机器学习》总结 - Q-learning(待填)

之前提到过,强化学习中有 policy gradient 的方法,其实质是利用 MC 的方法对于当前的模型(θ 或者 π,可以认为是由状态到行为的映射)重复跑很多次,求出估计的“期望值”,最终目标是最大化他们的 reward(因此可以将 loss 设置成负的期望)。
这样做有个问题就是我们可能无法重复跑很多次模型,无法进行到结尾。因此,可以考虑 actor-critic,其中 critic 可以是对于当前状态的期望 reward 评估函数(Vθ(s)),也可以是对于当前状态+某个决策(下称 action)的评估函数(Qπ(s,a))。其中 V 函数可以利用 TD 的方法训练,这样就规避了 MC 中每次都需要跑完的影响效率的问题。而 Q-learning 主要是针对 Q 函数展开的。

Q 函数的引入

Qπ(s,a) 表示在状态为 s 时,强制采取行动 a 时,接下来的行为服从 π 时的期望 reward。

Q-learning 的流程图:
image

首先,pi 会和环境交互,获得一些在 state 下的 action 及其获得的 reward 的数据,接着,使用 TD 等方法可以学习到当看到状态 s 之后,如果当前一步强制采取行为 a,总共能获得的期望 reward。如果我们训练好了 Q,我们就可以确定的找到一个新的 actor π 会更好,持续下去就会训练好一个 actor。

posted @   SkyRainWind  阅读(34)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 记一次.NET内存居高不下排查解决与启示
点击右上角即可分享
微信分享提示