2023 年 11月 2 日随笔档案 - MoonOut

摘要： 1. Policy Evaluation 会收敛，因为贝尔曼算子是压缩映射；2. Policy Improvement 有策略性能改进的保证。阅读全文

posted @ 2023-11-02 10:44 MoonOut 阅读(263) 评论(3) 推荐(0) 编辑

月出兮彩云归 🌙