摘要: 发表时间:2020 文章要点:这篇文章主要介绍当前offline RL的研究进展,可能的问题以及一些解决方法。 作者先介绍了强化学习的准备知识,比如policy gradients,Approximate dynamic programming,Actor-critic algorithms,Mod 阅读全文
posted @ 2024-03-04 10:13 initial_h 阅读(152) 评论(0) 推荐(0) 编辑