2021 年 9月随笔档案 - 芋圆院长

强化学习之基于表格型方法的规划和学习（二）-- 环境改变

摘要：注：本节内容是对Sutton的《Reinforcement Learning：An Introduction》第八章的理解整理~ 这里是第三节上一节讲到使用Dyna算法将学习和规划结合到一起，实现在线规划：一边与环境交互积攒经验，一边利用经验对当前情况进行总结寻找下一次与环境交互的合适动作。填充的阅读全文

posted @ 2021-09-30 11:18 芋圆院长阅读(131) 评论(0) 推荐(0) 编辑

马尔可夫不等式与切比雪夫不等式

摘要：马尔可夫不等式若随机变量

X

$X$ 只取非负值，则任意

a > 0

$a>0$ ，有

P (X >= a) <= \frac{E (X)}{a}

$P(X>=a)<=\frac{E(X)}{a}$ 该不等式的证明主要是利用对期望概念的理解，根据下图的计算过程走就是了。该不等式对随机变量的信息利用不够全面，只使用了期望进行计算，所以计算出来的概率上界比较宽松。据此推出的切比雪夫阅读全文

posted @ 2021-09-27 21:31 芋圆院长阅读(1126) 评论(0) 推荐(0) 编辑

对条件概率的理解

摘要：条件概率定义对条件概率的定义最初起源于离散事件，事件A和事件B的发生之间存在什么关系。在事件A发生的情况下，有多大的概率事件B可以发生？从上边的图片分析，就是当我知道自己在右边紫色的圈中，我同样还有粉色成分的概率是多少？注意这个前提，我在紫色圈中。这是一个已知的信息，借用参考链接2中的一句话：阅读全文

posted @ 2021-09-22 15:39 芋圆院长阅读(964) 评论(0) 推荐(0) 编辑

概率论与随机过程之间的关系

摘要：统计学是一门怎样的学科重新梳理一遍自己对统计、概率、随机过程等的理解数学本身是一门用数字刻画世界的语言，用给定的公理进行推理得到新的结果。本质就是类比探索寻找和发现。将一种东西转化为使用数字表示，通过数字之间的运算得到规律，再返回到实践中去指导了解和探索。那么概率实际上就是对样本空间中的阅读全文

posted @ 2021-09-10 20:26 芋圆院长阅读(1191) 评论(0) 推荐(0) 编辑

时序差分学习之最大化偏差与双学习(Maximization Bias and Double Learning)

摘要：前言在目前涉及到的构建目标策略时都包含了最大化操作，总是选择最大的那个（贪心策略，例如Q-learning、Sarsa等）。这些算法在估计值的基础上进行最大化可以被看做隐式地对最大值进行估计，例如真值为0，但估计有正有负直接选择最大化处理，估计出来的真值一定是正的。这就可以被称为最大化偏差【将估阅读全文

posted @ 2021-09-08 20:58 芋圆院长阅读(192) 评论(0) 推荐(0) 编辑

强化学习之基于表格型方法的规划和学习（一）-- 学习和规划

摘要：注：本节内容是对Sutton的《Reinforcement Learning：An introduction》第八章的理解整理~ 这里是前两节如何从统一视角来考虑一系列强化学习方法？稍微整理一下之前分享整理的强化学习思路：具备完整的环境模型，我们使用贝尔曼方程（解方程或仿真求解）得到状态函数，阅读全文

posted @ 2021-09-07 16:35 芋圆院长阅读(310) 评论(0) 推荐(0) 编辑

提升工作效率的Excel公式！

摘要：参考链接：https://post.smzdm.com/p/avwgw69m/ 看到一篇关于提升工作效率的Excel公式分享文章，简单做点总结，保证自己以后还能看到。公式1：判断是否为数字使用 =ISNUMBER() 简记 isnumber 是不是数字？公式2：数字取整使用 =INT() 简阅读全文

posted @ 2021-09-04 17:34 芋圆院长阅读(568) 评论(0) 推荐(0) 编辑

芋圆院长

09 2021 档案

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论