摘要: 无模型的强化学习算法 学习「强化学习」(基于这本教材,强烈推荐)时的一些总结,在此记录一下。 动态规划算法需要马尔可夫决策过程是已知的(状态转移函数、奖励函数已知),智能体不用真正地与环境互动也能在「理性」世界里求得最优策略。 现实通常并非如此,环境已知恰恰是很少见的。所以这里来看看「无模型的强化学 阅读全文
posted @ 2024-03-09 13:36 狐王驾虎 阅读(282) 评论(0) 推荐(0) 编辑