摘要: 1. Policy Evaluation 会收敛,因为贝尔曼算子是压缩映射;2. Policy Improvement 有策略性能改进的保证。 阅读全文
posted @ 2023-11-02 10:44 MoonOut 阅读(263) 评论(3) 推荐(0) 编辑