2023 年 5月 13 日随笔档案 - initial_h

2023年5月13日

DisCor: Corrective Feedback in Reinforcement Learning via Distribution Correction

摘要： **发表时间：**2020 (NeurIPS 2020) **文章要点：**这篇文章想说，对于监督学习来说就算刚开始训的不准，后面的新数据也会给你正确的feedback，这样的话随着训练进行，总会修正之前的错误。但是对于像Q-learning这样的强化学习任务来说，不存在这样的feedback，因为阅读全文

posted @ 2023-05-13 22:44 initial_h 阅读(54) 评论(0) 推荐(0) 编辑

initial_h

https://github.com/initial-h

公告