摘要: 一、研究对象 本文研究了POMDP的模仿学习问题,具体来说本文在POMDP中引入了一种的信念表示学习方法,用于生成对抗模仿学习,不同于以往单独训练信念模块和策略,我们对信念模块和策略进行联合学习,使用任务感知模仿损失来确保目标表示更加符合策略目标。 为了避免这种潜在的信念退化,我们引入了集中信息性的 阅读全文
posted @ 2023-01-15 14:03 哆啦哆啦呦 阅读(241) 评论(0) 推荐(0) 编辑