摘要: 上一篇博文的内容整理了我们如何去近似价值函数或者是动作价值函数的方法: $$ V_{\theta}(s)\approx V^{\pi}(s) \\ Q_{\theta}(s)\approx Q^{\pi}(s, a) $$ 通过机器学习的方法我们一旦近似了价值函数或者是动作价值函数就可以通过一些策略 阅读全文
posted @ 2018-11-02 09:52 Poll的笔记 阅读(6547) 评论(3) 推荐(1) 编辑