03 2024 档案

发表于 2024-03-09 13:36阅读：346评论：0推荐：0

摘要：无模型的强化学习算法学习「强化学习」（基于这本教材，强烈推荐）时的一些总结，在此记录一下。动态规划算法需要马尔可夫决策过程是已知的（状态转移函数、奖励函数已知），智能体不用真正地与环境互动也能在「理性」世界里求得最优策略。现实通常并非如此，环境已知恰恰是很少见的。所以这里来看看「无模型的强化学阅读全文 »

posted @ 2024-03-09 13:36 狐王驾虎阅读(346) 评论(0) 推荐(0) 编辑

基于动态规划的强化学习算法

发表于 2024-03-08 16:35阅读：113评论：0推荐：0

摘要：基于动态规划的强化学习算法学习「强化学习」（基于这本教材，强烈推荐）时的一些总结，在此记录一下。在马尔可夫决策过程环境模型已知（也就是状态转移函数P、奖励函数r已知）的情况下，我们可以通过「动态规划」求得马尔可夫决策过程的最优策略

π^{*}

。 1. 动态规划对于做过算法题目的阅读全文 »

posted @ 2024-03-08 16:35 狐王驾虎阅读(113) 评论(0) 推荐(0) 编辑

马尔可夫决策过程

发表于 2024-03-04 21:41阅读：193评论：0推荐：0

摘要：马尔可夫决策过程个人在学习「马尔可夫过程」时（基于这本教材，强烈推荐），做了些总结，并将遇到了一些感到困惑自我解答了，在此整理并记录一下。 1. 马尔可夫性质简单的一句话：当前状态只取决于上一时刻的状态。这个视频很生动地解释了这一性质。 2. 马尔可夫过程「马尔可夫过程」也叫「马尔可夫链」阅读全文 »

posted @ 2024-03-04 21:41 狐王驾虎阅读(193) 评论(0) 推荐(0) 编辑

FoxTiger

我们只能向前看到很短的距离，但是我们能够看到仍然有很多事情要做。

公告

文章目录

访问主页

qrCode

关注

点击开启

跳至底部

昵称：狐王驾虎
园龄： 1年4个月
粉丝： 40
关注： 2

+加关注

FoxTiger

03 2024 档案

FoxTiger

我们只能向前看到很短的距离，但是我们能够看到仍然有很多事情要做。

公告

搜索

常用链接

合集

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论