摘要: **发表时间:**2008(ICML 2008) **文章要点:**这篇文章提出Dyna-2算法,把sample-based learning and sample-based search结合起来,并在Go上进行测试。作者认为,search算法是一种transient的算法,就是短期记忆用了就忘了 阅读全文
posted @ 2023-03-30 12:02 initial_h 阅读(30) 评论(0) 推荐(0) 编辑