摘要: 上一篇文章推导了贝尔曼方程,这一篇文章来继续分享对应的马尔可夫决策的案例,然后引入策略评估并证明其收敛性。 主要的学习资源是四个: B站许志钦老师的视频(主要入门理论)https://www.bilibili.com/video/BV15a4y1j7vg?spm_id_from=333.999.0. 阅读全文
posted @ 2022-02-28 16:09 静候佳茵 阅读(517) 评论(0) 推荐(0) 编辑