2021 年 2月 4 日随笔档案 - 一粒盐

2021年2月4日

摘要：强化学习知识回顾机器学习方法强化学习马尔可夫决策 S是离散状态；A可能是离散，也可能是连续的；P通常用来描述模型马尔可夫假设：状态不断转移，随着时间可以写成St→St+1→St+2，而在St+2这个时间段时若给定了St+1状态，那么它跟St及以前的状态是没有关系的。在马尔可夫决策过程中，阅读全文

posted @ 2021-02-04 15:49 一粒盐阅读(33) 评论(0) 推荐(0) 编辑

一粒盐

公告