【人工智能导论:模型与算法】7.2.1-7.2.3 基于价值:策略优化 策略评估(动态规划、蒙特卡洛、时序差分)
挺有难度,推进不动了 ~
看明白时序差分,再研究Q学习,一步步来 ~
=========================================================
Update:
听了听 王树森 老师的 时序差分 例子,茅塞顿开,开心 !
https://www.bilibili.com/video/BV1rv41167yx?p=2
挺有难度,推进不动了 ~
看明白时序差分,再研究Q学习,一步步来 ~
=========================================================
Update:
听了听 王树森 老师的 时序差分 例子,茅塞顿开,开心 !
https://www.bilibili.com/video/BV1rv41167yx?p=2