2019 年 5月 22 日随笔档案 - 山竹小果

2019年5月22日

摘要：一、概述强化学习算法可以分为三大类：value based, policy based 和 actor critic。常见的是以DQN为代表的value based算法，这种算法中只有一个值函数网络，没有policy网络，以及以DDPG,TRPO为代表的actor-critic算法，这种算法中阅读全文

posted @ 2019-05-22 21:27 山竹小果阅读(7971) 评论(1) 推荐(3) 编辑

公告