03 2024 档案

摘要:无模型的强化学习算法 学习「强化学习」(基于这本教材,强烈推荐)时的一些总结,在此记录一下。 动态规划算法需要马尔可夫决策过程是已知的(状态转移函数、奖励函数已知),智能体不用真正地与环境互动也能在「理性」世界里求得最优策略。 现实通常并非如此,环境已知恰恰是很少见的。所以这里来看看「无模型的强化学 阅读全文 »
posted @ 2024-03-09 13:36 狐王驾虎 阅读(346) 评论(0) 推荐(0) 编辑
摘要:基于动态规划的强化学习算法 学习「强化学习」(基于这本教材,强烈推荐)时的一些总结,在此记录一下。 在马尔可夫决策过程 环境模型已知(也就是状态转移函数P、奖励函数r已知)的情况下,我们可以通过 「动态规划」 求得马尔可夫决策过程的最优策略 π 。 1. 动态规划 对于做过算法题目的 阅读全文 »
posted @ 2024-03-08 16:35 狐王驾虎 阅读(113) 评论(0) 推荐(0) 编辑
摘要:马尔可夫决策过程 个人在学习「马尔可夫过程」时(基于这本教材,强烈推荐),做了些总结,并将遇到了一些感到困惑自我解答了,在此整理并记录一下。 1. 马尔可夫性质 简单的一句话:当前状态 只取决于上一时刻 的状态。这个视频很生动地解释了这一性质。 2. 马尔可夫过程 「马尔可夫过程」也叫「马尔可夫链」 阅读全文 »
posted @ 2024-03-04 21:41 狐王驾虎 阅读(193) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示