2021 年 9月 8 日随笔档案 - 芋圆院长

2021年9月8日

时序差分学习之最大化偏差与双学习(Maximization Bias and Double Learning)

摘要：前言在目前涉及到的构建目标策略时都包含了最大化操作，总是选择最大的那个（贪心策略，例如Q-learning、Sarsa等）。这些算法在估计值的基础上进行最大化可以被看做隐式地对最大值进行估计，例如真值为0，但估计有正有负直接选择最大化处理，估计出来的真值一定是正的。这就可以被称为最大化偏差【将估阅读全文

posted @ 2021-09-08 20:58 芋圆院长阅读(161) 评论(0) 推荐(0) 编辑

芋圆院长

公告