园龄：3年10个月粉丝：37 关注：8

RL 基础 | Policy Gradient 的推导

Update：发现了 lilian weng 的 blog（Policy Gradient Algorithms），应该比我讲得好（）

去听了 hzxu 老师的 DRL 课，感觉终于听懂了，记录一下…

0 我们想做什么

我们想最大化的东西： $J (θ) = E_{τ} [R (τ)]$ ，其中 R 是轨迹的 reward 求和（或 discount 求和）。

我们希望，期望下的轨迹的 reward 求和（reward discounted 求和）最大。

①： $\nabla_{θ} \log z = \frac{1}{z} \nabla_{θ} z$

②： $E_{x \sim p (x)} [f (x)] = \int p (x) f (x) d x$

③： $a / b = [a \cdot p (x)] / [b \cdot p (x)]$

\begin{aligned} \nabla_{θ} E_{a \sim p (a | s; θ)} [r (a)] & = \nabla_{θ} \sum_{a} p (a ∣ s; θ) r (a) \\ = \sum_{a} r (a) \nabla_{θ} p (a ∣ s; θ) \\ = \sum_{a} r (a) p (a ∣ s; θ) \frac{\nabla_{θ} p (a ∣ s; θ)}{p (a ∣ s; θ)} \\ = \sum_{a}^{a} r (a) p (a ∣ s; θ) \nabla_{θ} \log p (a ∣ s; θ) \\ = E_{a \sim p (a | s; θ)} [r (a) \nabla_{θ} \log p (a ∣ s; θ)] \end{aligned}

结论：如果想最大化期望下的 r(s,a)，可以把 r(s,a) 放 $\nabla$ 外面，去对 log π(a|s) 求梯度。

先计算 trajectory 的概率：

p (τ ∣ θ) = \underset{initial state distribution}{\underset{⏟}{μ (s_{0})}} \cdot \prod_{t = 0}^{T - 1} [\underset{policy}{\underset{⏟}{π (a_{t} ∣ s_{t}, θ)}} \cdot \underset{transition fn.}{\underset{⏟}{p (s_{t + 1}, r_{t} ∣ s_{t}, a_{t})}}]

然后，对单个 transition，我们有

\nabla_{θ} E_{x \sim p (x | s; θ)} [r (x)] = E_{x \sim p (x | s; θ)} [r (x) \nabla_{θ} \log p (x ∣ s; θ)]

对于整个 trajectory 的 total reward 的梯度，应用跟 2 相同的方法（分数线上下同乘 p(τ|theta) ），可以得到

\nabla_{θ} E_{τ} [R (τ)] = E_{τ} [\underset{What is this?}{\underset{⏟}{\nabla_{θ} \log p (τ ∣ θ)}} \underset{Reward of a trajectory}{\underset{⏟}{R (τ)}}]

现在，让我们来看 $\nabla_{θ} \log p (τ ∣ θ)$ 。

\begin{aligned} \log p (τ ∣ θ) & = \log μ (s_{0}) + \log \prod_{t = 0}^{T - 1} [π (a_{t} ∣ s_{t}, θ) \cdot p (s_{t + 1}, r_{t} ∣ s_{t}, a_{t})] \\ = \log μ (s_{0}) + \sum_{t = 0}^{T - 1} \log [π (a_{t} ∣ s_{t}, θ) \cdot p (s_{t + 1}, r_{t} ∣ s_{t}, a_{t})] \\ = \log μ (s_{0}) + \sum_{t = 0}^{T - 1} [\log π (a_{t} ∣ s_{t}, θ) + \log p (s_{t + 1}, r_{t} ∣ s_{t}, a_{t})] \end{aligned}

其中，
第一行是把 trajectory 的概率展开；
第二行第三行都是把 log(A×B) 变成 logA + logB；
然后发现，只有中间这一项 $\sum_{t = 0}^{T - 1} \log π (a_{t} ∣ s_{t}, θ)$ 带 θ，因此，前后两项都不用跟 θ 求梯度了。

由此，我们得到：

\nabla_{θ} E_{τ} [R (τ)] = E_{τ} [R (τ) \nabla_{θ} \sum_{t = 0}^{T - 1} \log π (a_{t} ∣ s_{t}, θ)]

结论：如果想最大化期望下的 R(τ)，可以把 R(τ) 放 $\nabla$ 外面，去求 Σ $\nabla$ log π(a|s) ，即 log [action 概率] 的梯度。

使用策略 π(a|s;θ)，生成一个 trajectory： $(s_{0}, a_{0}, r_{1}, . . ., s_{T - 1}, a_{T - 1}, r_{T})$ ；
对每个时间步 t，计算回报： $R_{t} = \sum_{k = t + 1}^{T} γ^{k - t - 1} r_{k}$
更新策略参数： $θ = θ + α γ^{t} R_{t} \nabla_{θ} l o g π (a_{t} | s_{t}; θ)$

（算法是 GPT 生成的，看起来好像没问题）

本文作者：月出兮彩云归 🌙

本文链接：https://www.cnblogs.com/moonout/p/18086974

posted @ 2024-03-21 16:46 MoonOut 阅读(232) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页