摘要: 前言 在目前涉及到的构建目标策略时都包含了最大化操作,总是选择最大的那个(贪心策略,例如Q-learning、Sarsa等)。这些算法在估计值的基础上进行最大化可以被看做隐式地对最大值进行估计,例如真值为0,但估计有正有负 直接选择最大化处理,估计出来的真值一定是正的。这就可以被称为最大化偏差【将估 阅读全文
posted @ 2021-09-08 20:58 芋圆院长 阅读(161) 评论(0) 推荐(0) 编辑