会员
周边
捐助
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Poll的笔记
[三叶草精神] what hurts more,the pain of hard work or the pain of regret?
博客园
首页
联系
订阅
管理
2018年11月2日
[Reinforcement Learning] Policy Gradient Methods
摘要: 上一篇博文的内容整理了我们如何去近似价值函数或者是动作价值函数的方法: $$ V_{\theta}(s)\approx V^{\pi}(s) \\ Q_{\theta}(s)\approx Q^{\pi}(s, a) $$ 通过机器学习的方法我们一旦近似了价值函数或者是动作价值函数就可以通过一些策略
阅读全文
posted @ 2018-11-02 09:52 Poll的笔记
阅读(6725)
评论(3)
推荐(1)
编辑
公告