摘要: **发表时间:**2021 **文章要点:**这篇文章提出了一个Decision Transformer的模型,在offline RL的设定下,不用RL的方法学value function,也不需要做policy improvement,就可以达到甚至超过offline RL baseline。具体 阅读全文
posted @ 2021-08-21 09:21 initial_h 阅读(790) 评论(0) 推荐(0) 编辑