2019年1月17日

5. 值函数近似——Deep Q-learning

摘要: 前4篇,我们都是假设动作值函数Q是一张大表,状态-动作对都是一一对应的。这对于现实应用状态动作空间很大的情况来说,计算量就非常的大,甚至根本无法求解这样一张大表。因此,我们引入状态值函数v,由参数$\bf{w}$描述,我们希望, \[\hat v(s,{\bf{w}}) \approx {v_\pi 阅读全文

posted @ 2019-01-17 22:16 yijun0730 阅读(684) 评论(0) 推荐(0) 编辑

导航