上一页 1 ··· 7 8 9 10 11 12 13 14 15 16 下一页
摘要: 注:本节内容是对Sutton的《Reinforcement Learning:An Introduction》第九章的理解整理~ 这里是第三节 回顾之前所说,我们希望能够找到比较好的函数参数使得逼近效果尽可能地好(给出了状态重要性分布),接下来这一节讨论的是可以使用什么方法来逼近呢? **一定要记住 阅读全文
posted @ 2021-11-03 20:44 芋圆院长 阅读(214) 评论(0) 推荐(0) 编辑
摘要: 注:本节内容是对Sutton的《Reinforcement Learning:An Introduction》第九章的理解整理~ 这里是第一、二节 我们知道 强化学习主要是通过对状态或动作状态组的值函数估计来进行决策。在之前的讨论中,每个状态的状态值函数只受前继、后继状态的影响,一次更新只影响一个状 阅读全文
posted @ 2021-11-03 14:59 芋圆院长 阅读(325) 评论(0) 推荐(0) 编辑
摘要: 注:本文是对使用Python进行数据处理时常用的函数进行总结。 array的一些简单用法(再也不想用一次查一次了) 排序及索引 import numpy as np a = np.arange(100) b = sorted(a) a.sort() # 上述b是对a排序之后的新数组,a对象直接调用s 阅读全文
posted @ 2021-10-15 16:51 芋圆院长 阅读(136) 评论(0) 推荐(0) 编辑
摘要: 本节是在画图过程中不断【百度】得到的经验汇总,主要是为了自己以后少查几次-_- subplot 和 bar 该函数主要是用来划分画布块的,一般想要在一个页面中画多幅图时使用。 具体使用步骤如下: import matplotlib.pyplot as plt import numpy as np p 阅读全文
posted @ 2021-10-12 22:01 芋圆院长 阅读(82) 评论(0) 推荐(0) 编辑
摘要: 强化学习之基于表格型方法的规划和学习(七)-- 启发式搜索、预演算法、蒙特卡罗树搜索 注:本节内容是对Sutton的《Reinforcement Learning:An Introduction》第八章的理解整理~ 这里是第九、十、十一节 启发式搜索 启发式搜索是在搜索过程中加入别的表征量,帮助搜索更加快捷准确,不需要像之前一样全部遍历。 在启发式搜索中,对于每个遇到的状态,都建立一 阅读全文
posted @ 2021-10-11 21:42 芋圆院长 阅读(275) 评论(0) 推荐(0) 编辑
摘要: 强化学习之基于表格型方法的规划和学习(六)-- 决策时规划 注:本节内容是对Sutton的《Reinforcement Learning:An Introduction》第八章的理解整理~ 这里是第八节 我们在之前提过,规划用通俗的语言来解释就是分析已有的东西,做出在当前条件下最好的选择。然后根据这一尝试继续去分析找到好的策略和动作去执行。 后台规划是一直在 阅读全文
posted @ 2021-10-11 20:24 芋圆院长 阅读(122) 评论(0) 推荐(0) 编辑
摘要: 注:本节内容是对Sutton的《Reinforcement Learning:An Introduction》第八章的理解整理~ 这里是第七节 本节介绍的是轨迹采样的一个特例 实时动态规划 实时动态规划(real-time dynamic programming, RTDP)是动态规划(Dynami 阅读全文
posted @ 2021-10-11 19:48 芋圆院长 阅读(156) 评论(0) 推荐(0) 编辑
摘要: 注:本节内容是对Sutton的《Reinforcement Learning:An Introduction》第八章的理解整理~ 这里是第六节 第五节主要阐述了两种状态更新过程的优缺点对比,本节主要介绍两种分布式更新过程的算力分配方法:即着重更新哪些状态 一种方法是基于动态规划的经典方法:遍历整个状 阅读全文
posted @ 2021-10-11 15:08 芋圆院长 阅读(533) 评论(0) 推荐(0) 编辑
摘要: 注:本节内容是对Sutton的《Reinforcement Learning:An Introduction》第八章的理解整理~ 这里是第四、五节 在这一章的脉络中,首先将有模型和无模型的方法联系起来,平衡了真实经验和模拟经验,给出了使用表格型方法求解的基本模型,对环境进行统一。然后讨论了环境发生变 阅读全文
posted @ 2021-10-11 11:25 芋圆院长 阅读(113) 评论(0) 推荐(0) 编辑
摘要: 注:本节内容是对Sutton的《Reinforcement Learning:An Introduction》第八章的理解整理~ 这里是第三节 上一节讲到使用Dyna算法将学习和规划结合到一起,实现在线规划:一边与环境交互积攒经验,一边利用经验对当前情况进行总结寻找下一次与环境交互的合适动作。填充的 阅读全文
posted @ 2021-09-30 11:18 芋圆院长 阅读(119) 评论(0) 推荐(0) 编辑
上一页 1 ··· 7 8 9 10 11 12 13 14 15 16 下一页