2021 年 5月 20 日随笔档案 - 芋圆院长

2021年5月20日

摘要：在阅读Offline Reinforcement Learning的相关文章时有文章根据动态规划和策略梯度进行分类，在此加上进行一些简单的总结。主要参考了参考链接中的内容前言强化学习研究从总体思路上可以分为两个大方向，一种是通过值函数近似来得到策略称其为动态规划；另一种是策略梯度，讲究直接用函阅读全文

posted @ 2021-05-20 10:33 芋圆院长阅读(223) 评论(0) 推荐(0) 编辑

有限马尔可夫决策过程（Markov Decision Process, MDP）-- 强化学习策略和值函数

摘要：马尔可夫决策过程特征 · 状态、行动、奖励都是有限数值。下一次的状态和奖励只依赖于上一时刻的状态和行动。 · 马尔可夫决策过程与随机过程中的马尔可夫过程类似，不同点在于马尔可夫过程只看重状态之间的转移，主要研究的是给定初始状态稳定之后会变成什么样。在马尔可夫决策过程中，增加了动作的概念，两个状态之间阅读全文

posted @ 2021-05-20 09:36 芋圆院长阅读(447) 评论(0) 推荐(0) 编辑

芋圆院长

公告