2019 年 1月 17 日随笔档案 - yijun0730

2019年1月17日

5. 值函数近似——Deep Q-learning

摘要：前4篇，我们都是假设动作值函数Q是一张大表，状态-动作对都是一一对应的。这对于现实应用状态动作空间很大的情况来说，计算量就非常的大，甚至根本无法求解这样一张大表。因此，我们引入状态值函数v，由参数$\bf{w}$描述，我们希望， \[\hat v(s,{\bf{w}}) \approx {v_\pi 阅读全文

posted @ 2019-01-17 22:16 yijun0730 阅读(684) 评论(0) 推荐(0) 编辑

yijun0730

5. 值函数近似——Deep Q-learning

导航