会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
芋圆院长
博客园
首页
新随笔
联系
订阅
管理
2021年9月8日
时序差分学习之最大化偏差与双学习(Maximization Bias and Double Learning)
摘要: 前言 在目前涉及到的构建目标策略时都包含了最大化操作,总是选择最大的那个(贪心策略,例如Q-learning、Sarsa等)。这些算法在估计值的基础上进行最大化可以被看做隐式地对最大值进行估计,例如真值为0,但估计有正有负 直接选择最大化处理,估计出来的真值一定是正的。这就可以被称为最大化偏差【将估
阅读全文
posted @ 2021-09-08 20:58 芋圆院长
阅读(161)
评论(0)
推荐(0)
编辑
公告