2021 年 9月 30 日随笔档案 - 芋圆院长

2021年9月30日

摘要：注：本节内容是对Sutton的《Reinforcement Learning：An Introduction》第八章的理解整理~ 这里是第三节上一节讲到使用Dyna算法将学习和规划结合到一起，实现在线规划：一边与环境交互积攒经验，一边利用经验对当前情况进行总结寻找下一次与环境交互的合适动作。填充的阅读全文

posted @ 2021-09-30 11:18 芋圆院长阅读(120) 评论(0) 推荐(0) 编辑

芋圆院长

公告