11 2018 档案

[Reinforcement Learning] Policy Gradient Methods

摘要：上一篇博文的内容整理了我们如何去近似价值函数或者是动作价值函数的方法：

V_{θ} (s) \approx V^{π} (s) Q_{θ} (s) \approx Q^{π} (s, a)

$V_{\theta}(s)\approx V^{\pi}(s) \\ Q_{\theta}(s)\approx Q^{\pi}(s, a)$ 通过机器学习的方法我们一旦近似了价值函数或者是动作价值函数就可以通过一些策略阅读全文

posted @ 2018-11-02 09:52 Poll的笔记阅读(6811) 评论(3) 推荐(1) 编辑

[Reinforcement Learning] Value Function Approximation

摘要：为什么需要值函数近似？之前我们提到过各种计算值函数的方法，比如对于 MDP 已知的问题可以使用 Bellman 期望方程求得值函数；对于 MDP 未知的情况，可以通过 MC 以及 TD 方法来获得值函数，为什么需要再进行值函数近似呢？其实到目前为止，我们介绍的值函数计算方法都是通过查表的方式获取阅读全文

posted @ 2018-11-01 09:46 Poll的笔记阅读(2032) 评论(0) 推荐(0) 编辑

公告

昵称： Poll的笔记
园龄： 9年9个月
粉丝： 2515
关注： 14

+加关注

2025年3月

日

一

二

三

四

五

六

Poll的笔记

[三叶草精神] what hurts more,the pain of hard work or the pain of regret?

11 2018 档案

公告

最新随笔

积分与排名

随笔分类

随笔档案

常用链接

推荐博友