摘要: 注:本节内容是对Sutton的《Reinforcement Learning:An Introduction》第九章的理解整理~ 这里是第三节 回顾之前所说,我们希望能够找到比较好的函数参数使得逼近效果尽可能地好(给出了状态重要性分布),接下来这一节讨论的是可以使用什么方法来逼近呢? **一定要记住 阅读全文
posted @ 2021-11-03 20:44 芋圆院长 阅读(216) 评论(0) 推荐(0) 编辑
摘要: 注:本节内容是对Sutton的《Reinforcement Learning:An Introduction》第九章的理解整理~ 这里是第一、二节 我们知道 强化学习主要是通过对状态或动作状态组的值函数估计来进行决策。在之前的讨论中,每个状态的状态值函数只受前继、后继状态的影响,一次更新只影响一个状 阅读全文
posted @ 2021-11-03 14:59 芋圆院长 阅读(329) 评论(0) 推荐(0) 编辑