2022 年 2月 12 日随笔档案 - initial_h

2022年2月12日

MODEL-ENSEMBLE TRUST-REGION POLICY OPTIMIZATION

摘要： **发表时间：**2018（ICLR 2018） **文章要点：**这篇文章用ensemble的方式来度量model uncertainty，然后用来调整训练，避免policy利用model训练不充分（model bias）的地方进行学习，从而影响训练效果（policy optimization t 阅读全文

posted @ 2022-02-12 13:24 initial_h 阅读(100) 评论(0) 推荐(0) 编辑

initial_h

https://github.com/initial-h

公告