强化学习笔记
摘要:
策略梯度 1、基本概念policy(策略): 每一个actor中会有对应的策略,这个策略决定了actor的行为。具体来说,Policy 就是给一个外界的输入,然后它会输出 actor 现在应该要执行的行为。一般地,我们将policy写成 π。 Return(回报): 一个回合(Episode)或者试 阅读全文
posted @ 2020-10-29 23:11 my灬king 阅读(261) 评论(0) 推荐(0) 编辑