2023 年 11月 13 日随笔档案 - MoonOut

摘要：仅仅留下了一些印象，并没有看懂具体算法…… 如果需要重读这篇论文，会 refine 这篇阅读笔记的。阅读全文

posted @ 2023-11-13 20:40 MoonOut 阅读(310) 评论(0) 推荐(0) 编辑

摘要：发现对于很多任务，（只要给出专家轨迹），将 reward 设为 0 或随机数，也能学出很好 policy，证明这些任务不适合用来评测 reward learning 的性能好坏。阅读全文

posted @ 2023-11-13 18:11 MoonOut 阅读(436) 评论(0) 推荐(0) 编辑

月出兮彩云归 🌙