摘要: 1、策略梯度介绍 相比与DQN,策略梯度方法的区别主要在于,我们对于在某个状态下所采取的动作,并不由一个神经网络来决定,而是由一个策略函数来给出,而这个策略函数的目的,就是使得最终的奖励的累加和最大,这也是训练目标,所以训练会围绕策略函数的梯度来进行。 2、策略函数 以Reinforce算法为例, 阅读全文
posted @ 2023-08-03 17:59 想成为编程高手的阿曼 阅读(228) 评论(0) 推荐(0) 编辑