摘要: 强化学习 知识回顾 机器学习方法 强化学习 马尔可夫决策 S是离散状态;A可能是离散,也可能是连续的;P通常用来描述模型 马尔可夫假设:状态不断转移,随着时间可以写成St→St+1→St+2,而在St+2这个时间段时若给定了St+1状态,那么它跟St及以前的状态是没有关系的。 在马尔可夫决策过程中, 阅读全文
posted @ 2021-02-04 15:49 一粒盐 阅读(33) 评论(0) 推荐(0) 编辑