会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
ATM
理性不说“我”,而是增强自我。 查拉图斯特拉如是说。
博客园
首页
新随笔
联系
管理
2018年1月28日
马尔可夫决策过程中的动规
摘要: RL学习路线 记录强化学习入门的相关算法及实现。 DP Policy Evaluation 通过以下步骤进行 同步backup ,从而 评估 一个给定的 policy : 1. 在第 $k+1$ 轮, 2. 对于所有状态 $s\in S$, 3. 更新 $v_{k+1}(s)=\sum_{a\in\
阅读全文
posted @ 2018-01-28 18:38 &ATM
阅读(587)
评论(0)
推荐(0)
编辑
公告
……