摘要: 在阅读Offline Reinforcement Learning的相关文章时有文章根据动态规划和策略梯度进行分类,在此加上进行一些简单的总结。主要参考了参考链接中的内容 前言 强化学习研究从总体思路上可以分为两个大方向,一种是通过值函数近似来得到策略 称其为动态规划;另一种是策略梯度,讲究直接用函 阅读全文
posted @ 2021-05-20 10:33 芋圆院长 阅读(223) 评论(0) 推荐(0) 编辑
摘要: 马尔可夫决策过程特征 · 状态、行动、奖励都是有限数值。下一次的状态和奖励只依赖于上一时刻的状态和行动。 · 马尔可夫决策过程与随机过程中的马尔可夫过程类似,不同点在于马尔可夫过程只看重状态之间的转移,主要研究的是给定初始状态稳定之后会变成什么样。在马尔可夫决策过程中,增加了动作的概念,两个状态之间 阅读全文
posted @ 2021-05-20 09:36 芋圆院长 阅读(447) 评论(0) 推荐(0) 编辑