2022年1月24日

【人工智能导论:模型与算法】7.2.1-7.2.3 基于价值:策略优化 策略评估(动态规划、蒙特卡洛、时序差分)

摘要: 挺有难度,推进不动了 ~ 看明白时序差分,再研究Q学习,一步步来 ~ Update: 听了听 王树森 老师的 时序差分 例子,茅塞顿开,开心 ! https://www.bilibili.com/video/BV1rv41167yx?p=2 阅读全文

posted @ 2022-01-24 19:19 HBU_DAVID 阅读(54) 评论(0) 推荐(0) 编辑

导航