2022 年 1月 24 日随笔档案 - HBU_DAVID

【人工智能导论：模型与算法】7.2.1-7.2.3 基于价值：策略优化策略评估（动态规划、蒙特卡洛、时序差分）

摘要：挺有难度，推进不动了 ~ 看明白时序差分，再研究Q学习，一步步来 ~ Update：听了听王树森老师的时序差分例子，茅塞顿开，开心！ https://www.bilibili.com/video/BV1rv41167yx?p=2 阅读全文

posted @ 2022-01-24 19:19 HBU_DAVID 阅读(54) 评论(0) 推荐(0) 编辑