【人工智能导论:模型与算法】7.2.1-7.2.3 基于价值:策略优化 策略评估(动态规划、蒙特卡洛、时序差分)

挺有难度,推进不动了 ~

看明白时序差分,再研究Q学习,一步步来 ~

=========================================================

Update:

听了听 王树森 老师的 时序差分 例子,茅塞顿开,开心 !

https://www.bilibili.com/video/BV1rv41167yx?p=2

 

 

 

 

posted on 2022-01-24 19:19  HBU_DAVID  阅读(54)  评论(0编辑  收藏  举报

导航