会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Poll的笔记
[三叶草精神] what hurts more,the pain of hard work or the pain of regret?
博客园
首页
联系
订阅
管理
2018年11月2日
[Reinforcement Learning] Policy Gradient Methods
摘要: 上一篇博文的内容整理了我们如何去近似价值函数或者是动作价值函数的方法: $$ V_{\theta}(s)\approx V^{\pi}(s) \\ Q_{\theta}(s)\approx Q^{\pi}(s, a) $$ 通过机器学习的方法我们一旦近似了价值函数或者是动作价值函数就可以通过一些策略
阅读全文
posted @ 2018-11-02 09:52 Poll的笔记
阅读(6704)
评论(3)
推荐(1)
编辑
公告