2019 年 4月 24 日随笔档案 - Ruidongch

2019年4月24日

文献笔记:Deterministic Policy Gradient Algorithms

摘要：为什么需要引入决定性策略梯度？决定性策略梯度算法对于策略函数的更新形式比较简单，就是action-value函数的期望，这种简单的形式能够在估计policy时变得更有效。作为随机策略，在相同的策略，在同一个状态处，采用的动作是基于一个概率分布的，即是不确定的。而确定性策略则决定简单点，虽然在同一阅读全文

posted @ 2019-04-24 23:40 Ruidongch 阅读(2131) 评论(0) 推荐(0) 编辑

Ruidongch

公告