12 2018 档案

摘要:在前面讲到的DQN系列强化学习算法中,我们主要对价值函数进行了近似表示,基于价值来学习。这种Value Based强化学习方法在很多领域都得到比较好的应用,但是Value Based强化学习方法也有很多局限性,因此在另一些场景下我们需要其他的方法,比如本篇讨论的策略梯度(Policy Gradien 阅读全文
posted @ 2018-12-18 18:04 刘建平Pinard 阅读(120590) 评论(177) 推荐(14) 编辑

点击右上角即可分享
微信分享提示