Forward-Backward Reinforcement Learning


发表时间:2018
文章要点:这篇文章提出了Forward-Backward Reinforcement Learning (FBRL)算法,在假设reward function和goal已知的情况下,将model free的forward step和model based的backward step结合起来,提升训练效果。
具体的,训练一个反向模型,用\(s_{t+1},a_t\)预测\(s_t\),具体做法是去预测两个状态的差值

然后状态预测表示为

Loss用的Huber loss。有了model之后,结合DDQN算法,model free收集真实环境的forward step样本,model based收集model输出的backward step的样本,然后一起训练RL。
总结:思路主要是做data augmentation,然后不同点在于model based的用法,从goal出发来增加样本,而不是从starting point开始,对于稀疏回报场景下会比较好。不过文章也说了,刚开始model不准确,那些goal出发的样本不准确。不过文章也说了,这也许可能某种程度上增加探索,这点其实不是很make sense。
疑问:无。

posted @ 2022-04-03 13:19  initial_h  阅读(111)  评论(0编辑  收藏  举报