Discriminator Augmented Model-Based Reinforcement Learning

发表时间：2021
文章要点：这篇文章提出了Discriminator Augmented MBRL (DAM)算法，文章想说model based RL里面，学到的model是不准确的，这个问题也是很难避免的，于是作者换了一个思路，不去修正model，而是通过importance sampling来修正值估计，同时减小值估计的方差。
具体的，我们优化的目标是

这里p是真实的环境，但是我们需要从model里面采样，表示为q。这样，优化目标变为

权重

从而目标变成

剩下的事情就是训练一个discriminative model来算这个权重就好了

后面还提了一个减小方差的方法，定义

然后最小化两个q的KL散度

总结：感觉挺新的一个做法，有点意思。不去估计model的uncertainty，而是通过importance sampling去修正轨迹的估计，算是新想了一个方法。
疑问：里面这个log是怎么推出来的（直接套sigmoid函数就好了）

后面减小方差的那个也没看明白怎么来的，感觉要看看appendix

posted @ 2022-03-31 09:08 initial_h 阅读(45) 评论(0) 编辑收藏举报

initial_h

https://github.com/initial-h

Discriminator Augmented Model-Based Reinforcement Learning

公告