摘要: **发表时间:**2020(ICLR 2020) **文章要点:**这篇文章提出了一个新的intrinsic reward机制,Rewarding Impact-Driven Exploration (RIDE),鼓励agent采取使得状态表征变化大的动作,相较于之前的方法,这个方式在procedu 阅读全文
posted @ 2021-10-26 12:28 initial_h 阅读(171) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2019(AAAI 2020) **文章要点:**这篇文章通过构建一个图结构,来解释为啥agent要做/不做某个动作。具体来说就是先把某个问题给抽象成一个图结构,定义状态动作回报等关键信息的节点和边,然后在训练RL的时候也顺便用数据来训练这个图。训练完了之后,就根据图用深度优先搜索 阅读全文
posted @ 2021-10-26 12:23 initial_h 阅读(129) 评论(0) 推荐(0) 编辑