2024 年 11月 9 日随笔档案 - penuel

2024年11月9日

摘要： 1. return和贝尔曼上图说明从不同状态出发得到的return，依赖于从其他状态出发的return v是return，将第一张图写成矩阵的形式，r代表immediate reward，是已知的，矩阵P是策略加上state transition，也是已知的，求解v 这个公式实际上就是贝尔曼公式阅读全文

posted @ 2024-11-09 11:20 penuel 阅读(196) 评论(0) 推荐(0) 编辑

penuel

公告