摘要:**发表时间:**2020(ICML) **文章要点:**这篇文章提出Agent57算法,是第一个在所有57个Atari游戏上超过人类表现的算法。主要的思路就是基于Never Give Up (NGU)和R2D2((RECURRENT EXPERIENCE REPLAY IN DISTRIBUTED
阅读全文
摘要:**发表时间:**2020 **文章要点:**这篇文章是篇综述,主要从RL和planning的异同入手,总结了对解决MDP这类问题的公共因素,放到一起称作framework for reinforcement learning and planning (FRAP)的框架。首先文章提出,RL和pla
阅读全文