摘要: 注:本节内容是对Sutton的《Reinforcement Learning:An Introduction》第八章的理解整理~ 这里是第三节 上一节讲到使用Dyna算法将学习和规划结合到一起,实现在线规划:一边与环境交互积攒经验,一边利用经验对当前情况进行总结寻找下一次与环境交互的合适动作。填充的 阅读全文
posted @ 2021-09-30 11:18 芋圆院长 阅读(120) 评论(0) 推荐(0) 编辑