浅谈策略梯度（PG）算法

本文首发于：行者AI

Policy Optimization（策略优化）是强化学习中的一大类算法，其基本思路区别于Value-based的算法。因此，很多教科书都将model-free RL分成两大类，Policy Optimization和Value-based。本系列博客将会参考OpenAI发布的入门教程Spinning Up ^[1]，Spinning Up系列是入门Policy Optimization的非常好的教材，特别适合初学者。Policy Gradient（策略梯度，简称PG）算法是策略优化中的核心概念，本章我们就将从最简单的PG推导开始，一步步揭开策略优化算法的神秘面纱。

1. 直观理解

如果用一句话来表达策略梯度的直观解释，那就是“如果动作使得最终回报变大，那么增加这个动作出现的概率，反之，减少这个动作出现的概率”。这句话表达了两个含义：

我们考虑的是动作对于回报的影响，没有考虑状态或者其他因素。
我们调整的是动作出现的概率，而没有给某个动作打分，这区别于Value-based类的算法。

2. 策略梯度推导

本节我们将一步步推导出策略梯度的基础公式，这一小节非常重要，理解了推导过程，就基本上理解了策略梯度的核心思想。所以，一定要耐心的把这一小节的内容全部看懂，最好能够达到自行推导的地步。

最大化回报函数

我们用参数化的神经网络表示我们的策略 $\pi_\theta$ ，那我们的目标，就可以表示为调整 $\theta$ ，使得期望回报最大，用公式表示：

J (π_{θ}) = E \underset{π \sim τ}{[} R (τ)] - - - (1)

$J(\pi_\theta)=E\underset{\pi \sim \tau}[R(\tau)] ---(1)$

在公式(1)中， $\tau$ 表示从开始到结束的一条完整路径。通常，对于最大化问题，我们可以使用梯度上升算法来找到最大值。

θ^{*} = θ + α \nabla J (π_{θ}) - - - (2)

$\theta^*=\theta + \alpha\nabla J(\pi_\theta) ---(2)$

为了能够一步步得到最优参数，我们需要得到 $\nabla_{\theta} J\left(\pi_{\theta}\right)$ ，然后利用梯度上升算法即可，核心思想就是这么简单。

策略梯度

关键是求取最终的回报函数 $J(\pi_\theta)$ 关于 $\theta$ 的梯度，这个就是策略梯度（policy gradient），通过优化策略梯度来求解RL问题的算法就叫做策略梯度算法，我们常见的PPO，TRPO都是属于策略梯度算法。下面我们的目标就是把公式（2）逐步展开，公式（2）中最核心的部分就是 $\nabla_{\theta} J\left(\pi_{\theta}\right)$ ，这也是这篇博客最核心的地方。

\nabla_{θ} J (π_{θ}) = \nabla_{θ} \underset{τ \sim π_{θ}}{E} [R (τ)] - - - (3)

$\nabla_{\theta} J\left(\pi_{\theta}\right) = \nabla_{\theta} \underset{\tau \sim \pi_{\theta}}{\mathrm{E}} [R(\tau)] ---(3)$

= \nabla_{θ} \int_{τ} P (τ ∣ θ) R (τ) - - - (4)

$=\nabla_{\theta} \int_{\tau} P(\tau \mid \theta) R(\tau) \quad ---(4)$

= \int_{τ} \nabla_{θ} P (τ ∣ θ) R (τ) - - - (5)

$=\int_{\tau} \nabla_{\theta} P(\tau \mid \theta) R(\tau) \quad ---(5)$

= \int_{τ} P (τ ∣ θ) \nabla_{θ} \log P (τ ∣ θ) R (τ) - - - (6)

$=\int_{\tau} P(\tau \mid \theta) \nabla_{\theta} \log P(\tau \mid \theta) R(\tau) ---(6)$

= \underset{τ \sim π_{θ}}{E} [\nabla_{θ} \log P (τ ∣ θ) R (τ)] - - - (7)

$=\underset{\tau \sim \pi_{\theta}}{\mathrm{E}}\left[\nabla_{\theta} \log P(\tau \mid \theta) R(\tau)\right] ---(7)$

在以上的推导中，用到了log求导技巧： $\log x$ 关于 $x$ 的导数是 $\frac{1}{x}$ 。因此，我们可以得到以下的公式：

\nabla_{θ} P (τ ∣ θ) = P (τ ∣ θ) \nabla_{θ} \log P (τ ∣ θ) - - - (8)

$\nabla_{\theta} P(\tau \mid \theta)=P(\tau \mid \theta) \nabla_{\theta} \log P(\tau \mid \theta) ---(8)$

所以，才有公式（5）到公式（6），接下来我们把公式（7）进一步展开，主要是把 $\nabla_{\theta} \log P(\tau \mid \theta)$ 展开。先来看看 $P(\tau \mid \theta)$

P (τ ∣ θ) = ρ_{0} (s_{0}) \prod_{t = 0}^{T} P (s_{t + 1} ∣ s_{t}, a_{t}) π_{θ} (a_{t} ∣ s_{t}) - - - (8 - 1)

$P(\tau \mid \theta)=\rho_{0}\left(s_{0}\right) \prod_{t=0}^{T} P\left(s_{t+1} \mid s_{t}, a_{t}\right) \pi_{\theta}\left(a_{t} \mid s_{t}\right) ---(8-1)$

加入log，化乘法为加法：

\log P (τ ∣ θ) = \log ρ_{0} (s_{0}) + \sum_{t = 0}^{T} (\log P (s_{t + 1} ∣ s_{t}, a_{t}) + \log π_{θ} (a_{t} ∣ s_{t})) - - - (8 - 2)

$\log P(\tau \mid \theta)=\log \rho_{0}\left(s_{0}\right)+\sum_{t=0}^{T}\left(\log P\left(s_{t+1} \mid s_{t}, a_{t}\right)+\log \pi_{\theta}\left(a_{t} \mid s_{t}\right)\right) ---(8-2)$

计算log函数的梯度，并且约去一些常量：

\nabla_{θ} \log P (τ ∣ θ) = \cancel \nabla_{θ} \log ρ_{0} (s_{0}) + \sum_{t = 0}^{T} (\cancel \nabla_{θ} \log P (s_{t + 1} ∣ s_{t}, a_{t}) + \nabla_{θ} \log π_{θ} (a_{t} ∣ s_{t}))

$\nabla_{\theta} \log P(\tau \mid \theta) = \cancel{\nabla_{\theta} \log \rho_{0}\left(s_{0}\right)} + \sum_{t=0}^{T}\left(\cancel{\nabla_{\theta} \log P\left(s_{t+1} \mid s_{t}, a_{t}\right)} + \nabla_{\theta} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right)\right)$

= \sum_{t = 0}^{T} \nabla_{θ} \log π_{θ} (a_{t} ∣ s_{t}) - - - (9)

$=\sum_{t=0}^{T} \nabla_{\theta} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right) ---(9)$

因此，结合公式（7）和公式（9），我们得到了最终的表达式

\nabla_{θ} J (π_{θ}) = \underset{τ \sim π_{θ}}{E} [\sum_{t = 0}^{T} \nabla_{θ} \log π_{θ} (a_{t} ∣ s_{t}) R (τ)] - - - (10)

$\nabla_{\theta} J\left(\pi_{\theta}\right)=\underset{\tau \sim \pi_{\theta}}{\mathrm{E}}\left[\sum_{t=0}^{T} \nabla_{\theta} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right) R(\tau)\right] \quad ---(10)$

公式（10）就是PG算法的核心表达式了，从这个公式中可以看出，我们要求取的策略梯度其实是一个期望，具体工程实现可以采用蒙特卡罗的思想来求取期望，也就是采样求均值来近似表示期望。我们收集一系列的 $\mathcal{D}=\left\{\tau_{i}\right\}_{i=1, \ldots, N}$ ,其中每一条轨迹都是由agent采用策略 $\pi_{\theta}$ 与环境交互采样得到的，那策略梯度可以表示为：

\hat{g} = \frac{1}{| D |} \sum_{τ \in D} \sum_{t = 0}^{T} \nabla_{θ} \log π_{θ} (a_{t} ∣ s_{t}) R (τ) - - - (11)

$\hat{g}=\frac{1}{|\mathcal{D}|} \sum_{\tau \in \mathcal{D}} \sum_{t=0}^{T} \nabla_{\theta} \log \pi_{\theta}\left(a_{t} \mid s_{t}\right) R(\tau) ---(11)$

其中， $|\mathcal{D}|$ 表示采样的轨迹的数量。现在，我们完成了详细的策略梯度的推导过程，长舒一口气，接下来的工作就比较轻松了，就是在公式（10）的基础上修修改改了。

再进行简单修改之前，我们再总结一下公式（10），毕竟这个公式是PG算法最核心的公式：

对比我们常见的监督学习算法，我们都会定义loss函数，然后loss函数对参数求导，使用梯度下降算法不断使得loss最小。对于PG算法，我们的“loss函数”其实是期望回报的对数，而我们的目标是使得期望回报最大，所以这里使用了梯度上升算法。
一般的监督学习算法中，训练样本和测试样本的分布是同分布的，loss函数是从固定分布的样本上求出来的，与我们想要优化的参数是独立的。然而，对于PG算法，我们会有基于现有策略的采样的过程，策略不同，采样得到的样本不同，导致最终计算出来的loss也存在较大差异，这就使得网络很容易过拟合，后面我也会讲到更加高级的Actor-Critic框架，利用对抗的思路，解决这一问题。
对于一般的监督学习，loss越小越好，loss也是一个非常有效的评价训练是否完成的指标。然后对于PG算法，这里的“loss函数”意义不大，主要是因为这里的期望回报仅仅作用于当前策略生成的数据集。所以，并不是说loss降下来，模型就表现的更好。
我们可以将公式中的 $R(\tau)$ 看做是 $log\pi_\theta(a_t \mid s_t)$ 的权重，当奖励较小时，就说明在 $s_t$ 下采取动作 $a_t$ 的效果不好，减少 $s_t$ 状态下 $a_t$ 出现的概率，反之，奖励较大则增加动作出现概率，从而达到选取最合适的动作的目的。

3. 改进回报函数

我们继续观察公式（10），对于公式中的 $R(\tau)$ ，表示整个轨迹的回报，其实并不合理。对于一条轨迹中的所有动作，均采用相同的回报，就相当于对于轨迹中的每一个动作都赋予相同的权重。显然，动作序列中的动作有好有坏，都采取相同的回报，无法达到奖惩的目的，那我们该怎么表示某个状态下，执行某个动作的回报呢？

一种比较直观思路是，当前的动作将会影响后续的状态，并且获得即时奖励（reward），那么我们只需要使用折扣累计回报来表示当前动作的回报就行了，用公式表示为：

{\hat{R}}_{t} ≐ \sum_{t^{'} = t}^{T} R (s_{t^{'}}, a_{t^{'}}, s_{t^{'} + 1}) - - - (12)

$\hat{R}_{t} \doteq \sum_{t^{\prime}=t}^{T} R\left(s_{t^{\prime}}, a_{t^{\prime}}, s_{t^{\prime}+1}\right) ---(12)$

这在spinning up中叫做reward to go，所以，公式（10）可以表示为：

\nabla_{θ} J (π_{θ}) = \underset{τ \sim π_{θ}}{E} [\sum_{t = 0}^{T} \nabla_{θ} \log π_{θ} (a_{t} ∣ s_{t}) \sum_{t^{'} = t}^{T} R (s_{t^{'}}, a_{t^{'}}, s_{t^{'} + 1})] - - - (13)

当然，使用reward to go的权重分配还是相当初级，我们可以使用更加高级的权重分配方式，进一步减少回报分配的方差，限于篇幅原因，我们后续再聊。

4. 总结

本章我们花了大量的篇幅推导了策略梯度（PG）的核心公式，得到了关键表达式（10），理解该公式对于我们后续理解整个PG算法族非常有帮助，希望大家能够认真的理解这一公式推导过程。

PS：更多技术干货，快关注【公众号 | xingzhe_ai】，与行者一起讨论吧！

OpenAI Spinning Up https://spinningup.openai.com/ ↩︎

posted @ 2020-12-24 11:58 行者AI 阅读(2384) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 周边上新：园子的第一款马克杯温暖上架
· 分享 3 个 .NET 开源的文件压缩处理库，助力快速实现文件压缩解压功能！
· Ollama——大语言模型本地部署的极速利器
· DeepSeek如何颠覆传统软件测试？测试工程师会被淘汰吗？
· 使用C#创建一个MCP客户端

公告

昵称：行者AI
园龄： 4年3个月
粉丝： 13
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

行者AI

为游戏插上人工智能的翅膀

浅谈策略梯度（PG）算法

1. 直观理解

2. 策略梯度推导

3. 改进回报函数

4. 总结

公告

搜索

常用链接

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论