强化学习策略梯度方法之: REINFORCE 算法（从原理到代码实现）

强化学习策略梯度方法之: REINFORCE 算法（从原理到代码实现）

2018-04-01 15:15:42

最近在看policy gradient algorithm, 其中一种比较经典的算法当属：REINFORCE 算法，已经广泛的应用于各种计算机视觉任务当中。

【REINFORCE 算法原理推导】

【Pytorch 代码实现】

上面函数是 离散情况下的，那么，连续领域是什么情况呢？

-------------------------------------------------------------------------------------------------------------------------------------------------

Reference：

1. 参考博文：http://www.tuananhle.co.uk/notes/reinforce.html

5. 书籍：Statistical_Reinforcement_Learning

posted @ 2017-03-26 16:04 AHU-WangXiao 阅读(19350) 评论(2) 收藏举报

刷新页面返回顶部

The Blog of Xiao Wang