摘要: **发表时间:**2018(ICLR 2018) **文章要点:**这篇文章用ensemble的方式来度量model uncertainty,然后用来调整训练,避免policy利用model训练不充分(model bias)的地方进行学习,从而影响训练效果(policy optimization t 阅读全文
posted @ 2022-02-12 13:24 initial_h 阅读(100) 评论(0) 推荐(0) 编辑