*端策略优化算法(PPO)

策略梯度算法(PG)

策略梯度迭代，通过计算策略梯度的估计，并利用随机梯度上升算法进行迭代。其常用的梯度估计形式为：
$\hat{\mathbb{E}}_t[\nabla_\theta log \pi_\theta(a_t | s_t)\hat{A}_t]$
其中 $\pi_\theta$ 为随机策略， $\hat{A}_t$ 是优势函数在时间步t的估计，其损失函数为：
$L^{PG}(\theta)=\hat{\mathbb{E}}_t[log_{\pi_\theta}(a_t|s_t)\hat{A}_t]$

信赖域策略优化(TRPO)

TRPO要优化的目标函数如下：
$maximize_\theta \hat{\mathbb{E}}[\frac{\pi_{\theta(a_t|s_t)}}{\pi_{\theta_{old}}(a_t|s_t)}\hat{A}_t]$
$subject\ to \ \hat{\mathbb{E}_t}[KL[\pi_{\theta_{old}}(·|s_t)||\pi_\theta(·|s_t)]] \leq U$

*端策略优化算法(PPO)

截断替代目标(PPO1)

令 $r_t({\theta})=\frac{\pi_{\theta(a_t|s_t)}}{\pi_{old}(a_t|s_t)}$ ，那么 $r_t(\theta_{old})=1$ 。TRPO把目标函数替换为：
$L^{CPL}(\theta) =\hat{\mathbb{E}}[\frac{\pi_{\theta(a_t|s_t)}}{\pi_{\theta_{old}}(a_t|s_t)}\hat{A}_t]=\hat{\mathbb{E}}_t[r_t(\theta)\hat{A}_t]$

$L^{CPL}$ 指的是前述TRPO中的保守策略迭代，如果不加约束，最大化 $L^{CPL}$ 会产生较大幅度的梯度更新。为了惩罚策略的变化(使得 $r_t(\theta)$ 远离1，新旧策略的KL散度不能太大)，使用了以下的目标函数：
$L^{CLIP}(\theta)=\hat{\mathbb{E}}[min(r_t(\theta)\hat{A}_t, clip(r_t({\theta}),1-\epsilon, 1+\epsilon)\hat{A}_t)]$
原论文中取 $\epsilon=0.2$ ，直观示意图如下：
在这里插入图片描述
即：

当A>0时，如果 $r_t(\theta)>1+\epsilon$ ，则 $L^{CLIP}(\theta)=(1+\epsilon)\hat{A}_t$ ；如果 $r_t(\theta)<1+\epsilon$ ，则 $L^{CLIP}(\theta)=r_t(\theta)\hat{A}_t$ ；

当A<0时，如果 $r_t(\theta)>1-\epsilon$ ，则 $L^{CLIP}(\theta)=r_t(\theta)\hat{A}_t$ ；如果 $r_t(\theta)<1-\epsilon$ ，则 $L^{CLIP}(\theta)=(1-\epsilon)\hat{A}_t$ ；

自适应KL惩罚系数 (PPO2)

在TRPO中，使用"自适应惩罚系数" $\beta$ 来约束KL散度，在该算法的最简单实例中，在每一步策略更新中执行以下步骤：

使用多个minibatch SGD，优化KL惩罚的目标
$L^{KLPEN}(\theta)=\hat{\mathbb{E}}_t[\frac{\pi_{\theta(a_t|s_t)}}{\pi_{\theta_{old}}}(a_t|s_t)\hat{A}_t-\beta KL[\pi_{\theta_{old}}(·|s_t), \pi(·|s_t)]]$
计算 $d=\hat{\mathbb{E}}[KL[\pi_{\theta_{old}}(·|s_t), \pi(·|s_t)]]$

如果 $d<d_{targ}/1.5, \beta <-\beta/2$
如果 $d>d_{targ}*1.5, \beta<-\beta*2$

实验中，PPO2的效果可能没有PPO1的效果好。

更复杂的版本

$L_t^{CLIP+VF+S}(\theta) = \hat{E}_t[L_t^{CLIP}(\theta)-c_1L_t^{VF}(\theta)]+c_2 S[\pi_{\theta}](s_t)]$
其中 $c 1$ ， $c 2$ 是系数， $S$ 表示熵奖励， $L_t^{VF}$ 是平方误差损失 $(V_\theta(s_t)-V_t^{targ})^2$

优势估计函数为
$\hat{A}_t = -V(s_t)+r_t+\gamma r_{t+1}+...+\gamma^{T-t+1}r_{T-1}+\gamma^{T-t}V(s^T)$

另外，我们可以使用广义优势函数来扩广 $\hat{A}_t$ ，当 $\lambda=1$ 时，它趋*于上面的等式
$\hat{A}_t=\delta+(\gamma\lambda)\delta_{t+1}+...+...+{\gamma\lambda^{T-t+1}}\delta_{T-1}$
$\ \delta_t = r_t+\gamma V(s_{t+1}-V(s_t))$

使用固定长度轨迹的*端策略优化(PPO)算法

如下所示：

$\ PPO, Actor-Critic \ Style$
$\ iteration=1,2,...,do$
$\qquad for \ actor=1,2,...,N, do$
$\qquad \qquad Run \ policy \ \pi_{\theta_{old}}$ in environment for T timesteps
$\qquad \qquad Compute \ advantage \ estimates \hat{A}_1,...,\hat{A}_{T}$
$\qquad end for$
$\ surrogate \ L \ wrt \ \theta, with \ K \ epochs \ and \ minibatch \ size \ M <= NT$
$\ for$

从流域到海域

*端策略优化算法(PPO)

策略梯度算法(PG)

信赖域策略优化(TRPO)

*端策略优化算法(PPO)

截断替代目标(PPO1)

自适应KL惩罚系数 (PPO2)

更复杂的版本

使用固定长度轨迹的*端策略优化(PPO)算法

推荐阅读：

公告