摘要: **发表时间:**2018 **文章要点:**这篇文章搞了一个maze的环境来研究RL里面的overfitting问题。把环境也分成train和test,然后来看效果。Train和test就根据初始状态来分的,其实就是agent在迷宫里面的起始位置。先是比较了训练时间,训练集的大小,任务难度这三个因 阅读全文
posted @ 2021-10-04 13:01 initial_h 阅读(97) 评论(0) 推荐(0) 编辑