时序差分学习之最大化偏差与双学习(Maximization Bias and Double Learning)

前言

在目前涉及到的构建目标策略时都包含了最大化操作,总是选择最大的那个(贪心策略,例如Q-learning、Sarsa等)。这些算法在估计值的基础上进行最大化可以被看做隐式地对最大值进行估计,例如真值为0,但估计有正有负 直接选择最大化处理,估计出来的真值一定是正的。这就可以被称为最大化偏差【将估计值中的最大值视为对真实价值的最大值的估计,就会产生正的最大化偏差】

对这个问题,有一种看法是问题的根源在于确定价值最大的动作和估计它的价值使用的是同样的样本数据

双学习

基于上述说明,我们采用不同的样本将确定价值最大的动作过程和估计动作价值过程分开。用他们学习两个独立的对真实值的估计。用第一个来选择最佳动作,用第二个来计算其价值的估计。

参考链接:
double learning 为什么可以解决最大化偏差? - 阿亮算法的回答 - 知乎
https://www.zhihu.com/question/377206913/answer/1552498587

posted @ 2021-09-08 20:58  芋圆院长  阅读(161)  评论(0编辑  收藏  举报