2024 年 4月 19 日随笔档案 - SkyRainWind

2024年4月19日

摘要：伪代码：在 if done 的时候，在环境中已经跑了一个 trajectory 了，利用当前的 trajectory 和专家的 demo 求一下 reward（文章中用的是 optimal transport 的几种方法）否则，就继续在 observation 的基础上利用 actor 学到的策阅读全文

posted @ 2024-04-19 21:15 SkyRainWind 阅读(25) 评论(0) 推荐(0) 编辑