摘要: 我们在上一篇文章中详细推导了马尔可夫奖励过程的贝尔曼公式,这一篇文章重点来推导马尔科夫决策过程的贝尔曼公式。 主要的学习资源是四个: B站许志钦老师的视频(主要入门理论)https://www.bilibili.com/video/BV15a4y1j7vg?spm_id_from=333.999.0 阅读全文
posted @ 2022-02-25 18:30 静候佳茵 阅读(81) 评论(0) 推荐(0) 编辑