Discriminator Augmented Model-Based Reinforcement Learning


发表时间:2021
文章要点:这篇文章提出了Discriminator Augmented MBRL (DAM)算法,文章想说model based RL里面,学到的model是不准确的,这个问题也是很难避免的,于是作者换了一个思路,不去修正model,而是通过importance sampling来修正值估计,同时减小值估计的方差。
具体的,我们优化的目标是

这里p是真实的环境,但是我们需要从model里面采样,表示为q。这样,优化目标变为

权重

从而目标变成

剩下的事情就是训练一个discriminative model来算这个权重就好了


后面还提了一个减小方差的方法,定义

然后最小化两个q的KL散度

总结:感觉挺新的一个做法,有点意思。不去估计model的uncertainty,而是通过importance sampling去修正轨迹的估计,算是新想了一个方法。
疑问:里面这个log是怎么推出来的(直接套sigmoid函数就好了)

后面减小方差的那个也没看明白怎么来的,感觉要看看appendix

posted @ 2022-03-31 09:08  initial_h  阅读(44)  评论(0编辑  收藏  举报