Policy Gradient 算法

常见的policy gradient算法，写出来挺简单的，但是有一个复杂的推导过程，这里就略去了。

在这里插入图片描述

在这里插入图片描述
$G_t^i$ 可以是TD estimate、bootsrap，也可以是简单的从t开始的reward。

图示即为实现monototic imporvement

$G_t^i=\sum_{t'=t}^\Tau r_t^i$
$\hat{A}_t^i=G_t^i-b(s_t)$
上面两行是为了更好地得到梯度的估计，在使用少量数据的情况下，并减少variance。

两部分都很重要，实现的是不一样的东西。

在这里插入图片描述
$\hat{R_t^i}$ 的计算方式如下：

posted @ 2019-11-28 22:13 从流域到海域阅读(162) 评论(0) 编辑收藏举报

刷新页面返回顶部

从流域到海域