Policy Gradient

Policy Gradient是区别于Q-Learning为代表的value based的方法。policy gradient又可以叫reinforce算法(Williams, 1992)。

如今的ACTOR-CRITIC也就是基于policy gradient。该方法不能制表，只能对policy进行参数化。

然后它能处理连续action输出的问题。

DDPG似乎又不太一样，难道DDPG的任务都要求policy网络参数初始化很好，以便action不会陷入局部最优？所以要多训练几个policy网络？

posted @ 2018-03-27 00:49 Shiyu_Huang 阅读(541) 评论(0) 编辑收藏举报

刷新页面返回顶部

黄世宇@智谱AI，OpenRL Lab负责人，强化学习，LLM，通用人工智能[OpenRL][知乎][GitHub][Linkedin]如果你对人工智能前沿感兴趣，欢迎联系并加入我们！