Policy Gradient

Policy Gradient是区别于Q-Learning为代表的value based的方法。policy gradient又可以叫reinforce算法(Williams, 1992)。

 

如今的ACTOR-CRITIC也就是基于policy gradient。该方法不能制表,只能对policy进行参数化。

 

然后它能处理连续action输出的问题。

 

DDPG似乎又不太一样,难道DDPG的任务都要求policy网络参数初始化很好,以便action不会陷入局部最优?所以要多训练几个policy网络?

 

posted @ 2018-03-27 00:49  Shiyu_Huang  阅读(539)  评论(0编辑  收藏  举报