09 2021 档案

摘要:注:本节内容是对Sutton的《Reinforcement Learning:An Introduction》第八章的理解整理~ 这里是第三节 上一节讲到使用Dyna算法将学习和规划结合到一起,实现在线规划:一边与环境交互积攒经验,一边利用经验对当前情况进行总结寻找下一次与环境交互的合适动作。填充的 阅读全文
posted @ 2021-09-30 11:18 芋圆院长 阅读(131) 评论(0) 推荐(0) 编辑
摘要:马尔可夫不等式 若随机变量X只取非负值,则任意a>0,有P(X>=a)<=E(X)a 该不等式的证明主要是利用对期望概念的理解,根据下图的计算过程走就是了。 该不等式对随机变量的信息利用不够全面,只使用了期望进行计算,所以计算出来的概率上界比较宽松。 据此推出的切比雪夫 阅读全文
posted @ 2021-09-27 21:31 芋圆院长 阅读(1126) 评论(0) 推荐(0) 编辑
摘要:条件概率定义 对条件概率的定义最初起源于离散事件,事件A和事件B的发生之间存在什么关系。在事件A发生的情况下,有多大的概率事件B可以发生? 从上边的图片分析,就是当我知道自己在右边紫色的圈中,我同样还有粉色成分的概率是多少? 注意这个前提,我在紫色圈中。这是一个已知的信息,借用参考链接2中的一句话: 阅读全文
posted @ 2021-09-22 15:39 芋圆院长 阅读(964) 评论(0) 推荐(0) 编辑
摘要:统计学是一门怎样的学科 重新梳理一遍自己对统计、概率、随机过程等的理解 数学本身是一门用数字刻画世界的语言,用给定的公理进行推理得到新的结果。本质就是类比 探索 寻找和发现。 将一种东西转化为使用数字表示,通过数字之间的运算得到规律,再返回到实践中去指导了解和探索。 那么概率实际上就是对样本空间中的 阅读全文
posted @ 2021-09-10 20:26 芋圆院长 阅读(1191) 评论(0) 推荐(0) 编辑
摘要:前言 在目前涉及到的构建目标策略时都包含了最大化操作,总是选择最大的那个(贪心策略,例如Q-learning、Sarsa等)。这些算法在估计值的基础上进行最大化可以被看做隐式地对最大值进行估计,例如真值为0,但估计有正有负 直接选择最大化处理,估计出来的真值一定是正的。这就可以被称为最大化偏差【将估 阅读全文
posted @ 2021-09-08 20:58 芋圆院长 阅读(192) 评论(0) 推荐(0) 编辑
摘要:注:本节内容是对Sutton的《Reinforcement Learning:An introduction》第八章的理解整理~ 这里是前两节 如何从统一视角来考虑一系列强化学习方法? 稍微整理一下之前分享整理的强化学习思路: 具备完整的环境模型,我们使用贝尔曼方程(解方程或仿真求解)得到状态函数, 阅读全文
posted @ 2021-09-07 16:35 芋圆院长 阅读(310) 评论(0) 推荐(0) 编辑
摘要:参考链接:https://post.smzdm.com/p/avwgw69m/ 看到一篇关于提升工作效率的Excel公式分享文章,简单做点总结,保证自己以后还能看到。 公式1:判断是否为数字 使用 =ISNUMBER() 简记 isnumber 是不是数字? 公式2:数字取整 使用 =INT() 简 阅读全文
posted @ 2021-09-04 17:34 芋圆院长 阅读(568) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示