会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
FoxTiger
博客园
首页
新随笔
联系
订阅
管理
2024年3月8日
基于动态规划的强化学习算法
摘要: 基于动态规划的强化学习算法 学习「强化学习」(基于这本教材,强烈推荐)时的一些总结,在此记录一下。 在马尔可夫决策过程 环境模型已知(也就是状态转移函数P、奖励函数r已知)的情况下,我们可以通过 「动态规划」 求得马尔可夫决策过程的最优策略 \(\pi^*\) 。 1. 动态规划 对于做过算法题目的
阅读全文
posted @ 2024-03-08 16:35 狐王驾虎
阅读(96)
评论(0)
推荐(0)
编辑
公告