摘要: **发表时间:**2021 **文章要点:**一篇比较短的概念性的文章,主要想说Data-efficient RL走过了三个阶段,一个是pure on-line RL,就是数据来了用一次就扔;第二个是RL with a replay buffer,数据来了会存到一个容量有限的buffer里,数据可以 阅读全文
posted @ 2022-02-17 12:38 initial_h 阅读(64) 评论(0) 推荐(0) 编辑