【人工智能导论：模型与算法】7.2.1-7.2.3 基于价值：策略优化策略评估（动态规划、蒙特卡洛、时序差分） - HBU_DAVID - 博客园

【人工智能导论：模型与算法】7.2.1-7.2.3 基于价值：策略优化策略评估（动态规划、蒙特卡洛、时序差分）

挺有难度，推进不动了 ~

看明白时序差分，再研究Q学习，一步步来 ~

=========================================================

Update：

听了听王树森老师的时序差分例子，茅塞顿开，开心！

https://www.bilibili.com/video/BV1rv41167yx?p=2

posted on 2022-01-24 19:19 HBU_DAVID 阅读(90) 评论(0) 收藏举报

刷新页面返回顶部

导航