摘要: 论文链接 油管链接 一、摘要 当环境奖励特别稀疏的时候,强化学习方法通常很难训练(traditionally struggle)。一个有效的方式是通过人类示范者(human demonstrator)提供模仿轨迹(imitate trajectories)来指导强化学习的探索方向,通常的做法是观看人 阅读全文
posted @ 2018-07-28 12:53 initial_h 阅读(1210) 评论(0) 推荐(0) 编辑