摘要: 该篇论文描述了采用函数逼近法进行深度强化学习所遇到的问题,即会产生过高估计。 所谓函数逼近,指的是采用复杂函数估计state-value function值。一般Q-learning有以下表示: \[\mathcal { Q } ( s , a ) \quad - \quad r _ { s } ^ 阅读全文
posted @ 2019-03-09 21:47 Ruidongch 阅读(500) 评论(0) 推荐(0) 编辑