会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
人工智站
博客园
首页
联系
订阅
管理
2019年2月14日
强化学习-策略迭代
摘要: 1. 前言 在 "强化学习 MDP(马尔可夫决策过程)算法原理" 中我们已经介绍了强化学习中的基石 MDP,本文的任务是介绍如何通过价值函数,去寻找到最优策略,使得最后得到的奖励尽可能的多。 2. 回顾MDP 通过学习MDP我们得到了2个Bellman公式: 状态值函数: $$ v_{\pi}(s_
阅读全文
posted @ 2019-02-14 22:49 hyc339408769
阅读(5324)
评论(0)
推荐(1)
编辑
公告