李宏毅《机器学习》总结 - Q-learning(待填)

之前提到过,强化学习中有 policy gradient 的方法,其实质是利用 MC 的方法对于当前的模型(\(\theta\) 或者 \(\pi\),可以认为是由状态到行为的映射)重复跑很多次,求出估计的“期望值”,最终目标是最大化他们的 reward(因此可以将 loss 设置成负的期望)。
这样做有个问题就是我们可能无法重复跑很多次模型,无法进行到结尾。因此,可以考虑 actor-critic,其中 critic 可以是对于当前状态的期望 reward 评估函数(\(V^{\theta}(s)\)),也可以是对于当前状态+某个决策(下称 action)的评估函数(\(Q^{\pi}(s,a)\))。其中 \(V\) 函数可以利用 TD 的方法训练,这样就规避了 MC 中每次都需要跑完的影响效率的问题。而 Q-learning 主要是针对 \(Q\) 函数展开的。

Q 函数的引入

\(Q^{\pi}(s,a)\) 表示在状态为 s 时,强制采取行动 a 时,接下来的行为服从 \(\pi\) 时的期望 reward。

Q-learning 的流程图:
image

首先,\(pi\) 会和环境交互,获得一些在 state 下的 action 及其获得的 reward 的数据,接着,使用 TD 等方法可以学习到当看到状态 s 之后,如果当前一步强制采取行为 a,总共能获得的期望 reward。如果我们训练好了 \(Q\),我们就可以确定的找到一个新的 actor \(\pi'\) 会更好,持续下去就会训练好一个 actor。

posted @ 2024-03-04 22:06  SkyRainWind  阅读(30)  评论(0编辑  收藏  举报