摘要: 伪代码: 在 if done 的时候,在环境中已经跑了一个 trajectory 了,利用当前的 trajectory 和专家的 demo 求一下 reward(文章中用的是 optimal transport 的几种方法) 否则,就继续在 observation 的基础上利用 actor 学到的策 阅读全文
posted @ 2024-04-19 21:15 SkyRainWind 阅读(7) 评论(0) 推荐(0) 编辑