李宏毅《机器学习》总结 - Q-learning（待填）

之前提到过，强化学习中有 policy gradient 的方法，其实质是利用 MC 的方法对于当前的模型（\(\theta\) 或者 \(\pi\)，可以认为是由状态到行为的映射）重复跑很多次，求出估计的“期望值”，最终目标是最大化他们的 reward（因此可以将 loss 设置成负的期望）。
这样做有个问题就是我们可能无法重复跑很多次模型，无法进行到结尾。因此，可以考虑 actor-critic，其中 critic 可以是对于当前状态的期望 reward 评估函数（\(V^{\theta}(s)\)），也可以是对于当前状态+某个决策（下称 action）的评估函数（\(Q^{\pi}(s,a)\)）。其中 \(V\) 函数可以利用 TD 的方法训练，这样就规避了 MC 中每次都需要跑完的影响效率的问题。而 Q-learning 主要是针对 \(Q\) 函数展开的。

Q 函数的引入

\(Q^{\pi}(s,a)\) 表示在状态为 s 时，强制采取行动 a 时，接下来的行为服从 \(\pi\) 时的期望 reward。

Q-learning 的流程图：

首先，\(pi\) 会和环境交互，获得一些在 state 下的 action 及其获得的 reward 的数据，接着，使用 TD 等方法可以学习到当看到状态 s 之后，如果当前一步强制采取行为 a，总共能获得的期望 reward。如果我们训练好了 \(Q\)，我们就可以确定的找到一个新的 actor \(\pi'\) 会更好，持续下去就会训练好一个 actor。

posted @ 2024-03-04 22:06 SkyRainWind 阅读(30) 评论(0) 编辑收藏举报

刷新页面返回顶部

SkyRainWind

空を見ろ。空を見続けろ。答えはそこにある。

李宏毅《机器学习》总结 - Q-learning（待填）

Q 函数的引入

公告