随笔档案「2023年8月3日」：强化学习——策略梯度之Reinforce ... - 想成为编程高手的阿曼

2023年8月3日

摘要： 1、策略梯度介绍相比与DQN，策略梯度方法的区别主要在于，我们对于在某个状态下所采取的动作，并不由一个神经网络来决定，而是由一个策略函数来给出，而这个策略函数的目的，就是使得最终的奖励的累加和最大，这也是训练目标，所以训练会围绕策略函数的梯度来进行。 2、策略函数以Reinforce算法为例，阅读全文

posted @ 2023-08-03 17:59 想成为编程高手的阿曼阅读(565) 评论(0) 推荐(0)

humanplug

公告