摘要: 一、 概述 强化学习算法可以分为三大类:value based, policy based 和 actor critic。 常见的是以DQN为代表的value based算法,这种算法中只有一个值函数网络,没有policy网络,以及以DDPG,TRPO为代表的actor-critic算法,这种算法中 阅读全文
posted @ 2019-05-22 21:27 山竹小果 阅读(7870) 评论(1) 推荐(3) 编辑