2021 年 11月 3 日随笔档案 - 芋圆院长

2021年11月3日

摘要：注：本节内容是对Sutton的《Reinforcement Learning：An Introduction》第九章的理解整理~ 这里是第三节回顾之前所说，我们希望能够找到比较好的函数参数使得逼近效果尽可能地好（给出了状态重要性分布），接下来这一节讨论的是可以使用什么方法来逼近呢？ **一定要记住阅读全文

posted @ 2021-11-03 20:44 芋圆院长阅读(216) 评论(0) 推荐(0) 编辑

强化学习之基于函数逼近的同轨策略预测（一）-- 价值函数逼近和预测目标

摘要：注：本节内容是对Sutton的《Reinforcement Learning：An Introduction》第九章的理解整理~ 这里是第一、二节我们知道强化学习主要是通过对状态或动作状态组的值函数估计来进行决策。在之前的讨论中，每个状态的状态值函数只受前继、后继状态的影响，一次更新只影响一个状阅读全文

posted @ 2021-11-03 14:59 芋圆院长阅读(329) 评论(0) 推荐(0) 编辑

芋圆院长

公告